Scraping web con AutoScraper en Python

AutoScraper es una biblioteca de Python que simplifica el Scraping web al identificar y extraer automáticamente datos de sitios web sin necesidad de inspeccionar manualmente el HTML. A diferencia de las herramientas de Scraping web tradicionales, AutoScraper aprende la estructura de los elementos de datos basándose en consultas de ejemplo, lo que lo convierte en una excelente opción tanto para principiantes como para desarrolladores experimentados. Ideal para tareas como recopilar información de productos, agregar contenido o realizar un Estudio de mercado, AutoScraper maneja sitios web dinámicos de manera eficiente, sin ninguna configuración compleja.

En este artículo, aprenderás a utilizar AutoScraper con Python para el Scraping web.

Requisitos previos

Configurar AutoScraper es fácil. Por supuesto, necesitas tener Python 3 o una versión posterior instalada localmente. Al igual que cualquier otro proyecto de Scraping web con Python, solo tienes que ejecutar unos pocos comandos para crear un directorio de proyecto y crear y activar un entorno virtual en él:

# Configurar el directorio del proyecto
mkdir auto-scrape
cd auto-scrape

# Crear un entorno virtual
python -m venv env
# Para usuarios de Mac y Linux
source env/bin/activate
# Para usuarios de Windows
venvScriptsactivate

El uso de un entorno virtual simplifica la gestión de dependencias en el proyecto.

A continuación, instala la biblioteca autoscraper ejecutando el siguiente comando:

pip install autoscraper

También es necesario instalar pandas para guardar los resultados del scraping en un archivo CSV al final. pandas es una biblioteca de Python que ofrece una herramienta de análisis y manipulación de datos fácil de usar. Permite procesar y guardar fácilmente los resultados del scraping en varios formatos, como CSV, XLSX y JSON. Ejecute el siguiente comando para instalarla:

pip install pandas

Selecciona un sitio web de destino

Cuando extraiga datos de sitios web públicos, asegúrese de consultar los Términos de servicio (ToS) del sitio o el archivo robots.txt para asegurarse de que el sitio permite la extracción de datos. Esto le ayudará a evitar cualquier problema legal o ético. Además, es mejor seleccionar sitios web que proporcionen datos en un formato estructurado, como tablas o listas, que son más fáciles de extraer.

Las herramientas de scraping tradicionales suelen requerir el análisis de la estructura HTML de una página web para localizar los elementos de datos de destino. Esto puede llevar mucho tiempo y requiere estar familiarizado con herramientas como las consolas de desarrollo de los navegadores. Sin embargo, AutoScraper simplifica este paso al aprender automáticamente la estructura de los datos basándose en datos de ejemplo (también conocidos como wanted_list), lo que elimina la necesidad de una inspección manual.

En este tutorial, comenzará rastreando datos de la página «Países del mundo: un ejemplo sencillo» de Scrape This Site, un entorno de pruebas fácil de usar para principiantes diseñado para probar herramientas de rastreo. Esta página tiene una estructura sencilla, ideal para demostrar técnicas básicas de rastreo. Una vez que domine la estructura básica, pasará a la página «Equipos de hockey: formularios, búsqueda y paginación», que presenta un diseño más complejo.

Extraiga datos sencillos con AutoScraper

Ahora que ha identificado dos páginas que desea extraer, ¡es hora de empezar a extraer!

Dado que la página Countries of the World: A Simple Example es sencilla, se puede utilizar el siguiente script para extraer una lista de países, junto con su capital, población y superficie:

# 1. Importar dependencias
from autoscraper import AutoScraper
import pandas as pd

# 2. Definir la URL del sitio que se va a extraer
url = "https://www.scrapethissite.com/pages/simple/"

# 3. Instanciar AutoScraper
scraper = AutoScraper()

# 4. Definir la lista deseada utilizando un ejemplo de la página web
# Esta lista debe contener algún texto o valores que desee extraer
wanted_list = ["Andorra", "Andorra la Vella", "84000", "468.0"]

# 5. Cree el Scraper basándose en la lista deseada y la URL.
scraper.build(url, wanted_list)

# 6. Obtenga los resultados de todos los elementos coincidentes.
results = scraper.get_result_similar(url, grouped=True)

# 7. Muestre las claves y los datos de muestra para comprender la estructura.
print("Claves encontradas por el Scraper:", results.keys())

# 8. Asignar columnas basadas en las claves del Scraper y el orden esperado de los datos.
columns = ["Country Name", "Capital", "Area (sq km)", "Population"]

# 9. Crear un DataFrame con los datos extraídos.
data = {columns[i]: results[list(results.keys())[i]] for i in range(len(columns))}
df = pd.DataFrame(data)

# 10. Guardar el DataFrame en un archivo CSV.
csv_filename = 'countries_data.csv'
df.to_csv(csv_filename, index=False)

print(f"Los datos se han guardado correctamente en {csv_filename}")

Este código tiene comentarios en línea para explicar lo que está sucediendo, pero aquí hay un resumen rápido: el script comienza importando AutoScraper y pandas. A continuación, se define la URL del sitio web de destino. Luego, se crea una instancia del Scraper.

Ahora viene la parte interesante: en lugar de proporcionar instrucciones detalladas al Scraper sobre dónde se encuentran los datos de destino en el sitio web (como se haría con otros Scrapers, probablemente a través de XPath u otros selectores), simplemente se proporciona un ejemplo de los datos que se buscan. Bajo el cuarto comentario, los puntos de datos de uno de los países se proporcionan al Scraper como una matriz (también conocida como wanted_list).

Una vez que la wanted_list está lista, se crea el Scraper utilizando la URL y la wanted_list. El Scraper descarga el sitio web de destino y genera reglas que almacena en su lista de pila. Utiliza estas reglas para extraer datos de cualquier URL de destino en el futuro.

En el código del comentario seis, se utiliza el método get_result_similar del modelo AutoScraper para extraer datos de la URL de destino que sean similares a los datos de la lista wanted_list. La siguiente línea es una simple instrucción de impresión para mostrar los ID de las reglas bajo las cuales se han encontrado datos en la URL de destino. El resultado debería ser similar a este:

Claves encontradas por el Scraper: dict_keys(['rule_4y6n', 'rule_gghn', 'rule_a6r9', 'rule_os29'])

El código de los comentarios ocho y nueve crea el esquema de encabezado para su archivo CSV y formatea los datos extraídos en un DataFrame de pandas. Por último, el código del comentario diez guarda los datos en el CSV.

Una vez que ejecute este script (guardando el script anterior en un archivo llamado script.py y ejecutando python script.py en la línea de comandos), verá que se ha creado un nuevo archivo llamado countries_data.csv en el directorio del proyecto con un contenido similar al siguiente:

País Nombre,Capital,Superficie (km²),Población
Andorra,Andorra la Vella,84000,468,0
Emiratos Árabes Unidos,Abu Dhabi,4975593,82880,0
...246 filas colapsadas
Zambia,Lusaka,13460305,752614,0
Zimbabue, Harare, 11651858, 390580,0

¡Eso es todo! Así de sencillo es extraer datos de sitios web sencillos con AutoScraper.

Procesar y extraer datos de sitios web con un diseño complejo

Cuando se trata de sitios web un poco más complejos, como la página Hockey Teams: Forms, Searching and Pagination, que contiene una tabla con muchos valores similares, la técnica mostrada anteriormente puede fallar. Puede intentar extraer el nombre del equipo, el año, las victorias, las derrotas y otros campos de este sitio web utilizando el mismo método mostrado anteriormente para ver el problema por sí mismo.

Afortunadamente, AutoScraper permite un entrenamiento más preciso del modelo mediante la poda de las reglas recopiladas durante la fase de construcción antes de utilizar el modelo para extraer datos. Aquí tienes el código que te ayudará a hacerlo:

from autoscraper import AutoScraper
import pandas as pd

# Define la URL del sitio que se va a extraer.
url = "https://www.scrapethissite.com/pages/forms/"

def setup_model():

    # Instancia el AutoScraper.
    scraper = AutoScraper()

    # Define la lista deseada utilizando un ejemplo de la página web
    # Esta lista debe contener algún texto o valores que desees extraer
    wanted_list = ["Boston Bruins", "1990", "44", "24", "0.55", "299", "264", "35"]

    # Construye el Scraper basándose en la lista deseada y la URL.
    scraper.build(url, wanted_list)

    # Obtén los resultados de todos los elementos coincidentes.
    results = scraper.get_result_similar(url, grouped=True)

    # Muestra los datos para comprender la estructura.
    print(results)

    # Guardar el modelo.
    scraper.save("teams_model.json")

def prune_rules():
    # Crear una instancia de Autoscraper.
    scraper = AutoScraper()
    
    # Cargar el modelo guardado anteriormente.
    scraper.load("teams_model.json")

    # Actualizar el modelo para conservar solo las reglas necesarias.
    Scraper.keep_rules(['rule_hjk5', 'rule_9sty', 'rule_2hml', 'rule_3qvv', 'rule_e8x1', 'rule_mhl4', 'rule_h090', 'rule_xg34'])

    # Guardar de nuevo el modelo actualizado.
    scraper.save("teams_model.json")
    
def load_and_run_model():
    # Crear una instancia de Scraper.
    scraper = Scraper()
    
    # Cargar el modelo guardado anteriormente.
    scraper.load("teams_model.json")

    # Obtener los resultados de todos los elementos coincidentes
    results = Scraper.get_result_similar(url, grouped=True)

    # Asignar columnas basadas en las claves del Scraper y el orden esperado de los datos
    columns = ["Nombre del equipo", "Año", "Victorias", "Derrotas", "% de victorias", "Goles a favor (GF)", "Goles en contra (GA)", "+/-"]

    # Crear un DataFrame con los datos extraídos
    data = {columns[i]: results[list(results.keys())[i]] for i in range(len(columns))}
    df = pd.DataFrame(data)

    # Guardar el DataFrame en un archivo CSV.
    csv_filename = 'teams_data.csv'
    df.to_csv(csv_filename, index=False)

    print(f"Los datos se han guardado correctamente en {csv_filename}")

# setup_model()
# prune_rules()
# load_and_run_model()

Este script tiene tres métodos definidos: setup_model, prune_rules y load_and_run_model. El método setup_model es similar al que has visto anteriormente. Crea una instancia de un Scraper, crea una wanted_list, construye el Scraper utilizando la wanted_list, extrae los datos de la URL de destino utilizando este Scraper, imprime las claves (es decir, los ID de reglas recopilados durante esta extracción) y guarda el modelo tal cual en un archivo llamado teams_model.json en el directorio del proyecto.

Para ejecutarlo, descomente la línea # setup_model() en el script anterior, guarde el script completo en un archivo (por ejemplo,script.py) y ejecute pythonscript.py`. El resultado debería ser similar a este:

{'rule_hjk5': ['Boston Bruins', 'Buffalo Sabres', 'Calgary Flames', 'Chicago Blackhawks', 'Detroit Red Wings', 'Edmonton Oilers', 'Hartford Whalers', 'Los Angeles Kings', 'Minnesota North Stars', 'Montreal Canadiens', 'New Jersey Devils', 'New York Islanders', 'New York Rangers', 'Philadelphia Flyers', 'Pittsburgh Penguins', 'Quebec Nordiques', 'St. Louis Blues', 'Toronto Maple Leafs', 'Vancouver Canucks', 'Washington Capitals', 'Winnipeg Jets', 'Boston Bruins', 'Buffalo Sabres', 'Calgary Flames', «Chicago Blackhawks»], «rule_uuj6»: [«Boston Bruins», «Buffalo Sabres», «Calgary Flames», «Chicago Blackhawks», «Detroit Red Wings», «Edmonton Oilers», «Hartford Whalers», «Los Angeles Kings», «Minnesota North Stars», «Montreal Canadiens», «New Jersey Devils», «New York Islanders», «New York Rangers», «Philadelphia Flyers», «Pittsburgh Penguins», «Quebec Nordiques», «St. Louis Blues», «Toronto Maple Leafs», «Vancouver Canucks», «Washington Capitals», «Winnipeg Jets», «Boston Bruins», «Buffalo Sabres», «Calgary Flames», «Chicago Blackhawks»], «rule_9sty»: ['1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1991', '1991', '1991', '1991'], 'rule_9nie': ['1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1991', '1991', '1991', '1991'], 'rule_41rr': ['1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1991', '1991', '1991', '1991'], 'rule_ufil': ['1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1991', '1991', '1991', '1991'], 'rule_ere2': ['1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1991', '1991', '1991', '1991'], 'rule_w0vo': ['1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1991', '1991', '1991', '1991'], 'rule_rba5': ['1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1991', '1991', '1991', '1991'], 'rule_rmae': ['1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1991', '1991', '1991', '1991'], 'rule_ccvi': ['1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1991', '1991', '1991', '1991'], 'rule_3c34': ['1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1991', '1991', '1991', '1991'], 'rule_4j80': ['1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1991', '1991', '1991', '1991'], 'rule_oc36': ['1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1991', '1991', '1991', '1991'], 'rule_93k1': ['1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', «1990», «1990», «1990», «1990», «1990», «1990», «1990», «1990», «1990», «1990», «1990», «1990», «1991», '1991', '1991', '1991'], 'rule_d31n': ['1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1991', '1991', '1991', '1991'], 'rule_ghh5': ['1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1991', '1991', '1991', '1991'], 'rule_5rne': ['1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1991', '1991', '1991', '1991'], 'rule_4p78': ['1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1991', '1991', '1991', '1991'], 'rule_qr7s': ['1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1991', '1991', '1991', '1991'], 'rule_60nk': ['1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1991', '1991', '1991', '1991'], 'rule_wcj7': ['1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1991', '1991', '1991', '1991'], «rule_0x7y»: [«1990», «1990», «1990», «1990», «1990», «1990», «1990», «1990», «1990», «1990», «1990», «1990», «1990», «1990», '1990', '1990', '1990', '1990', '1990', '1990', '1990', '1991', '1991', '1991', '1991'], 'rule_2hml': ['44', '31', '46', '49', '34', '37', '31', '46', '27', '39', '32', '25', '36', '33', '41', '16', '47', '23', '28', '37', '26', '36', '31', '31', '36'], 'rule_swtb': ['24'], 'rule_e8x1': ['0.55', '14', '0.575', '0.613', '-25', '0', '-38', '0,575', '-10', '24', '8', '-67', '32', '-15', '0,512', '-118', '0,588', '-77', '-72', '0', '-28', '-5', «-10», «-9», «21»], «rule_3qvv»: [«24», «30», «26», «23», «38», «37», «38», «24», «39», «30», «33», «45», «31», «37», «33», «50», «22», '46', '43', '36', '43', '32', '37', '37', '29'], 'rule_n07w': ['24', '30', '26', '23', '38', '37', '38', '24', '39', '30', '33', '45', '31', '37', '33', '50', '22', '46', '43', '36', '43', '32', '37', '37', '29'], 'rule_qmem': ['0.55', '0.388', '0.575', '0.613', '0.425', '0.463', '0.388', '0.575', '0.338', '0.487', '0.4', '0.312', '0.45', '0.412', '0.512', '0.2', '0,588', '0,287', '0,35', '0,463', '0,325', '0,45', '0,388', '0,388', '0,45'], 'rule_b9gx': ['264', '278', '263', '211', '298', '272', '276', '254', '266', '249', '264', '290', '265', '267', '305', '354', '250', '318', '315', '258', '288', '275', '299', '305', '236'], 'rule_mhl4': ['299', '292', '344', '284', '273', '272', '238', '340', '256', '273', '272', '223', '297', '252', '342', '236', '310', '241', '243', '258', '260', '270', '289', '296', '257'], 'rule_24nt': ['264', '278', '263', '211', '298', '272', '276', '254', '266', '249', '264', '290', '265', '267', '305', '354', '250', '318', '315', '258', '288', '275', '299', '305', '236'], 'rule_h090': ['264', '278', '263', '211', '298', '272', '276', '254', '266', '249', '264', '290', '265', '267', '305', '354', '250', '318', '315', '258', '288', '275', '299', '305', '236'], 'rule_xg34': ['35', '14', '81', '73', '-25', '0', «-38», «86», «-10», «24», «8», «-67», «32», «-15», «37», «-118», «60», «-77», «-72», «0», «-28», «-5», «-10», «-9», «21»]

Esto muestra los datos completos recopilados por AutoScraper en su llamada get_result_similar desde el sitio web de destino. Observará que estos datos contienen muchos duplicados. Esto se debe a que AutoScraper no solo recopila los datos del sitio web de destino, sino que también intenta darles sentido adivinando las relaciones entre ellos y creando grupos de puntos de datos llamados reglas que considera que están relacionados entre sí. Si puede agrupar los datos correctamente, podrá extraer datos de sitios web similares muy fácilmente, como lo hizo en el ejemplo anterior.

Sin embargo, AutoScraper parece tener dificultades con este sitio web. Dado que contiene muchos números, AutoScraper acaba asumiendo un gran número de correlaciones entre varios números, y se obtiene un gran conjunto de datos de reglas con puntos de datos duplicados.

Ahora, debe analizar cuidadosamente este conjunto de datos y seleccionar las reglas que contienen los datos correctos (es decir, que solo contienen los datos correctos de una columna en el orden correcto) para su trabajo de scraping.

Para este resultado, las siguientes reglas contenían los datos correctos (encontrados al examinar manualmente algunos puntos de datos y asegurarse de que cada una de las reglas seleccionadas recibiera veinticinco elementos de datos, que es el número de filas de la tabla de la página de destino):

['rule_hjk5', 'rule_9sty', 'rule_2hml', 'rule_3qvv', 'rule_e8x1', 'rule_mhl4', 'rule_h090', 'rule_xg34']

Debe actualizar esto en el método prune_rules. A continuación, debe comentar la línea setup_model() y descomentar la línea prune_rules() en el script y ejecutarlo. Esta vez, carga el modelo creado anteriormente desde el archivo teams_model.json, elimina todo excepto las reglas enumeradas y, a continuación, lo vuelve a guardar en el mismo archivo. Incluso puede consultar el contenido del archivo teams_model.json para ver qué reglas están almacenadas actualmente en él. Una vez que haya completado eso, su modelo estará listo.

Ahora, puede ejecutar el método load_and_run_model comentando las líneas prune_rules y prune_rules, descomentando la línea load_and_run_model en el mismo script y volviendo a ejecutarlo. Extrae y guarda los datos correctos en un archivo llamado teams_data.csv en el directorio del proyecto, junto con la siguiente salida:

Los datos se han guardado correctamente en teams_data.csv

Así es como se ve el archivo teams_data.csv después de una ejecución exitosa:

Nombre del equipo, Año, Victorias, Derrotas, % de victorias, Goles a favor (GF), Goles en contra (GA), +/-
Boston Bruins, 1990, 44, 0,55, 24, 299, 264, 35
Buffalo Sabres, 1990, 31, 14, 30, 292, 278, 14...
 21 filas más
Calgary Flames, 1991, 31, -9, 37, 296, 305, -9
Chicago Blackhawks, 1991, 36, 21, 29, 257, 236, 21

Puedes consultar el código desarrollado en este artículo en este repositorio de GitHub.

Retos comunes con AutoScraper

Aunque AutoScraper funciona muy bien en casos de uso sencillos en los que el sitio web de destino contiene un conjunto de datos relativamente pequeño con puntos de datos distintos, puede resultar complicado de configurar para casos de uso complejos, como un sitio web con una tabla como la que has visto anteriormente. Además, AutoScraper no es compatible con la representación de JavaScript, por lo que es necesario integrarlo con un módulo como Splash o una biblioteca completa como Selenium o Puppeteer.

Si se encuentra con problemas como bloqueos de IP o necesita personalizar los encabezados al realizar el scraping, AutoScraper admite la especificación de un conjunto de parámetros de solicitud adicionales utilizados por su módulo de solicitudes de la siguiente manera:

# crear el Scraper en una URL inicial
scraper.build(
    url,
    wanted_list=wanted_list,
    request_args=dict(proxies=proxies) # aquí es donde puedes pasar una lista de proxies o encabezados de clientes
)

Por ejemplo, así es como se puede configurar un agente de usuario personalizado y un Proxy para el scraping con AutoScraper:

request_args = { 
  "headers: {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 
            (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36"  # Puede personalizar este valor con el agente de usuario que desee. Este valor es el predeterminado que utiliza Autoscraper.
  },
  "proxies": {
    "http": "http://user:[email protected]:3128/" # Ejemplo de Proxy para mostrar cómo utilizar los valores de puerto, host, nombre de usuario y contraseña del Proxy.
  }
}
# crea el Scraper en una URL inicial
scraper.build(
    url,
    wanted_list=wanted_list,
    request_args=request_args
)

Sin embargo, si desea evitar que le bloqueen una y otra vez, necesita un buen Proxy optimizado para el Scraping web. Para ello, debería considerar el uso delos Proxies residenciales de Bright Data, que se distribuyen en 150 millones de direcciones IP residenciales en 195 países.

La biblioteca AutoScraper utiliza internamente la biblioteca de solicitudes de Python para enviar solicitudes al sitio web de destino y no admite de forma inherente la limitación de velocidad. Para gestionar las restricciones de limitación de velocidad de los sitios web, es necesario configurar manualmente una función de limitación o utilizar una solución preconstruida como la biblioteca ratelimit.

Dado que AutoScraper solo funciona con sitios web no dinámicos, no puede manejar en absoluto los sitios protegidos con CAPTCHA. En tales casos, tiene sentido utilizar una solución más detallada como la API de Bright Data Scraping web, que le proporciona datos estructurados de sitios como LinkedIn, Amazon y Zillow.

Conclusión

En este artículo, ha aprendido qué es AutoScraper y cómo extraer datos de sitios web simples y complejos utilizando esta herramienta. Como ha visto, AutoScraper se basa en una simple llamada de solicitud para acceder a los sitios web de destino, lo que significa que a menudo tiene dificultades con los sitios web dinámicos y aquellos protegidos por retos como CAPTCHA. Además, es necesario utilizar Proxy al realizar el Scraping web, ya que la mayoría de los sitios web pueden identificar a los clientes con un tráfico anormalmente alto. En tales casos, Bright Data puede ayudar.

Bright Data es un proveedor líder de redes de proxies, Scrapers basados en IA y conjuntos de datos listos para usar en el ámbito empresarial. ¡Regístrese ahora y comience a explorar los productos de Bright Data, incluida una prueba gratuita!

Contactar Ventas Prueba gratuita