Aprende cómo extraer todas las URLs de un sitio web - BlackSEO

Al grano. Existe múltiples métodos para poder realizar la extración de todas las URLs de un sitio web, ya sea mediante plugins de wordpress o algún otro CMS, también directo del sitemap, directamente con google, u otras tantas alternativas. En este caso les mostraré una manera bastante simple y rápida para conseguir todas las URLs de cualquier sitio, sin importar el CMS que tengas instalado.

En este caso usaremos un simple código de PHP que lo que hace es obtener todo el contenido utilizando una función, bastante conocida por cierto, «file_get_contents()», y luego dicho contenido lo vamos a almacenar en una variable para luego imprimirla… Pues vamos, acá está el código:

<?php
$urlContent = file_get_contents('https://blackseo.online');

$dom = new DOMDocument();
@$dom->loadHTML($urlContent);
$xpath = new DOMXPath($dom);
$hrefs = $xpath->evaluate("/html/body//a");

for($i = 0; $i < $hrefs->length; $i++){
    $href = $hrefs->item($i);
    $url = $href->getAttribute('href');
    $url = filter_var($url, FILTER_SANITIZE_URL);
    // validate url
    if(!filter_var($url, FILTER_VALIDATE_URL) === false){
        echo '<a href="'.$url.'">'.$url.'</a><br />';
    }
}
?>

Lo ideal es crear un archivo .php y colocarlo en la raíz para extraer todas las URLs. No olviden borrar el archivo para evitar cualquier ejecución maliciosa que busque consumir recursos del servidor. De igual manera adjuntaré el archivo para que lo descarguen directamente.


¡Únete a nuestra comunidad DG21 para emprendedores web. Todo sobre SEO y Black Hat SEO, sobre Marketing Digital, AdSense, Redacción SEO, Seguridad web, programación, modelos de negocios rentables, y mucho más. ¡Contáctanos!
Y acá nuestra comunidad abierta de Black Hat SEO

Grupo de facebook
Fanpage
Canal de Youtube
Grupo de WhatsApp
Canal y grupo de Telegram