¿Qué es un recopilador web?

6 min read
Robot gestionando servidores conectados a internet.

Los recopiladores web (crawlers) son una parte fundamental de la infraestructura de Internet. En este artículo hablaremos de ello:

Definición de recopilador web

Un recopilador web (crawler) es un robot informático que explora Internet y descarga los datos que encuentra. La mayoría de los recopiladores web se operan mediante motores de búsqueda como Google, Bing, Baidu y DuckDuckGo. Los motores de búsqueda aplican sus algoritmos de búsqueda a los datos recopilados para formar su índice de búsqueda. Los índices permiten a los motores de búsqueda ofrecer enlaces relevantes a los usuarios en función de sus consultas de búsqueda.

Hay recopiladores web que sirven a intereses distintos de los motores de búsqueda, como Way Back Machine del Internet Archive, que proporciona capturas instantáneas de sitios web en un momento determinado del pasado.

 

¿Cómo funcionan los recopiladores web?

Los recopiladores web, como Googlebot de Google, empiezan cada día con una lista de sitios web donde quieren recopilar datos. Esto se conoce como presupuesto de rastreo. El presupuesto refleja la demanda de indexar páginas. Hay dos factores principales que influyen en el presupuesto de rastreo: la popularidad y el estancamiento. Las URLs más populares en Internet tienden a recopilarse más a menudo para mantenerlas más frescas en el índice. Los recopiladores web también intentan evitar que las URL se vuelvan obsoletas en el índice.

Cuando un recopilador web se conecta a un sitio, comienza por descargar y leer el archivo robots.txt. El archivo robots.txt forma parte del protocolo de exclusión de robots (REP), un grupo de normas web que regulan la forma en que los robots recopilan datos en la web, acceden e indexan contenidos y sirven esos contenidos a los usuarios. Los propietarios de los sitios web pueden definir a qué agentes de usuario pueden y no pueden acceder en el sitio. Robots.txt también puede definir una directiva de retardo de rastreo para reducir el ritmo de las solicitudes que un recopilador hace al sitio web. Robots.txt también enumera los mapas del sitio asociados a un sitio, para que el recopilador pueda encontrar todas las páginas y saber cuándo se actualizaron por última vez. Si una página no ha cambiado desde la última visita del recopilador, se omitirá en esa ocasión.

 

Cuando un recopilador web llega finalmente a una página donde debe recopilar, la renderiza en un navegador, cargando todo el HTML, el código de terceros, JavaScript y CSS. Esta información se almacena en la base de datos del motor de búsqueda y se utiliza posteriormente para indexar y clasificar la página. También descarga todos los enlaces de la página. Los enlaces que aún no están en el índice del motor de búsqueda se añaden a una lista que se recopilará más tarde.

El cumplimiento de las directivas de un archivo robots.txt es voluntario. La mayoría de los principales motores de búsqueda siguen las directivas de robots.txt, pero algunos no lo hacen. Los malos actores, como los spammers y los botnets, ignoran las directivas robots.txt. Incluso algunos recopiladores web legítimos, como Internet Archive, ignoran robots.txt.

Ejemplos de recopiladores web

Los motores de búsqueda tienen varios tipos de recopiladores web. Por ejemplo, Google tiene 17 tipos de robots:

  • APIs-Google
  • AdSense
  • AdsBot Mobile Web Android
  • AdsBot Mobile Web
  • Googlebot Image
  • Googlebot News
  • Googlebot Video
  • Googlebot Desktop
  • Googlebot Smartphone
  • Mobile Apps Android
  • Mobile AdSense
  • Feedfetcher
  • Google Read Aloud
  • Duplex on the web
  • Google Favicon
  • Web Light
  • Google StoreBot

Razones por las que los recopiladores web son tan importantes para el SEO

El objetivo del SEO es que su contenido se encuentre fácilmente cuando un usuario busque un término de búsqueda relacionado. Google no puede saber dónde clasificar su contenido si no se recopila e indexa.

Los recopiladores web también pueden ayudar en otras áreas. Los sitios de eCommerce suelen rastrear los sitios de la competencia para analizar la selección de productos y los precios. Este tipo de recopilación de datos suele conocerse como “web scraping en lugar de web crawling“. El raspado de datos web (web scraping) se centra en elementos de datos HTML específicos. Los raspadores web están muy centrados, mientras que los recopiladores web lanzan una amplia red y recogen todo el contenido. Por parte del usuario, también existen herramientas SERP API que ayudan a recopilar y raspar datos SERP.

 

Retos que enfrentan los recopiladores web

Los recopiladores web pueden enfrentarse a una serie de retos.

Desafío Descripción
Restricciones de Robots.txt Si el recopilador web respeta las restricciones de robots.txt, es posible que no pueda acceder a determinadas páginas web o enviar solicitudes que superen un límite arbitrario.
Prohibiciones de IP Dado que algunos recopiladores web no respetan las restricciones de robots.txt, pueden implementar otras herramientas para restringir la recopilación web. Los sitios web pueden prohibir direcciones IP que se sabe que son maliciosas, como proxies de datos gratuitos utilizados por estafadores o determinadas direcciones IP de centros de datos.
Restricciones de geolocalización Algunos sitios web exigen que el visitante se encuentre en una región geográfica específica para acceder a su contenido. Un buen ejemplo es intentar acceder al contenido de Netflix USA desde una ubicación no estadounidense. La mayoría de las restricciones geográficas pueden superarse mediante el uso de redes proxy residenciales.
CAPTCHAs Algunos sitios web, cuando detectan grandes volúmenes de actividad de fuentes sospechosas, lanzan CAPTCHAs para verificar si hay un humano real detrás de una solicitud. Los CAPTCHAs pueden interrumpir la actividad de los recopiladores web. Muchas soluciones de rastreo web disponen de herramientas y tecnologías para superar este tipo de bloqueos. Esas herramientas de desbloqueo suelen utilizar una solución de resolución de CAPTCHA.

Resumen

Los recopiladores web son una parte fundamental de la infraestructura de Internet. Permiten a los motores de búsqueda recopilar los datos que necesitan para construir sus índices de búsqueda, lo que les permite ofrecer resultados de búsqueda para las consultas de los usuarios. Muchas empresas consideran que los recopiladores web les ayudan en sus búsquedas. En realidad, a menudo se centran sólo en uno o dos sitios, como Amazon, Adidas o los listados de Airbnb. En esos casos de uso, herramientas como Web Scraper IDE de Bright Data se ajustan mejor a sus necesidades.