Scrapy proxy integation

Integración de Proxy en Scrapy

¿Qué es Scrapy?

Scrapy es un marco de Python para rastrear y raspar sitios web, que permite al usuario extraer datos estructurados de sitios web. Es de código abierto, rápido y ampliable. Scrapy puede utilizarse para diversos fines, como la minería de datos, la supervisión y las pruebas automatizadas.

Integración de Scrapy con proxies de Bright Data

Abre tu IDE preferido, inicia un nuevo proyecto de Scrapy y escribe en la línea de comandos:

      scrapy startproject 
    

Esta acción creará una nueva carpeta con el nombre del proyecto. Dentro de la carpeta, abre un archivo de Python.

  • Ve a tu panel de control de Bright Data y haz clic en el icono «Proxies & Scraping Infra».
  • Crea una nueva zona proxy haciendo clic en «Añadir», eligiendo un tipo de red, configurando el proxy y haciendo clic en guardar.
  • En la pestaña «Parámetros de acceso» de tu zona proxy, encontrarás tus valores «USUARIO» y «CONTRASEÑA».
  • En el archivo de código de tu araña Scrapy, dentro del parámetro «meta» de la solicitud, establece el valor de «proxy» de la siguiente manera, utilizando los valores «USUARIO» y «CONTRASEÑA» anteriores: «http://USUARIO:CONTRASEÑ[email protected]:33335».
  • Por ejemplo:
      import scrapy

class BrightdatascrapyexampleSpider(scrapy.Spider):
   name = "BrightDataScrapyExample"

  def start_requests(self):
       request = scrapy.Request(url="http://example.com",callback=self.parse)
       request.meta['proxy'] = "http://USERNAME:[email protected]:33335"
       yield request

   def parse(self, response):
       print(response.body)
    

Luego ejecuta el siguiente comando en tu línea de comandos:

      scrapy runspider 
    

Cómo usar Proxy Manager de Bright Data con Scrapy

  • Crea una zona proxy igual que en la integración directa anterior
  • Instala Proxy Manager.
  • Haz clic en «añadir puerto nuevo» y configúralo según tu caso concreto.
  • En el archivo de código de tu araña Scrapy, dentro del parámetro «meta» de la solicitud, establece el valor «proxy» de la siguiente manera: «http://IP:PORTNUMBER».
  • La IP del host local es 127.0.0.1; este es el valor que debes usar si Proxy Manager está instalado en tu equipo. Si Proxy Manager está instalado en un servidor externo, introduce la dirección IP de ese servidor.
  • El puerto creado en Proxy Manager es 24XXX; por ejemplo, 24000 (el primer número de puerto predeterminado).
  • Por ejemplo:
      import scrapy

class BrightdatascrapyexampleSpider(scrapy.Spider):
   name = "BrightDataScrapyExample"

   def start_requests(self):
       request = scrapy.Request(url="http://example.com",callback=self.parse)
       request.meta['proxy'] = "http://127.0.0.1:24000"
       yield request

   def parse(self, response):
       print(response.body)
    

Obtén proxies para Scrapy

proxy badges

Alimentado por una infraestructura de proxy residencial galardonada

Más de 72 millones de IP residenciales, la mejor tecnología de su clase y con capacidad de apuntar a cualquier país, ciudad, operador y ASN, hace de nuestros servicios de proxy premium la mejor opción para los desarrolladores.

Tipos de proxy para cada necesidad

Proxies residenciales

  • 72,000,000 IPs
  • Disponible en 195 países
  • La red IP rotativa más grande compuesta por pares verdaderos
  • Acceso y recopilación de datos en todos los sitios web sofisticados

Proxies datacenter

  • 1,600,000 IPs
  • Disponible en 98 países
  • Reservas disponibles de IPs dedicadas y compartidas
  • Acceso rápido a sitios web no complejos

Proxies ISP

  • +700,000 IPs
  • Disponibles en 35 países
  • IPs verdaderas estáticas y residenciales sin rotación de IPs
  • La mejor opción para iniciar sesión en múltiples cuentas

Proxies mobile

  • 7,000,000+ IPs
  • Disponible en 195 países
  • La red IP 3G/4G compuesta con verdaderos pares más grande del mundo
  • Verificación de publicidad para dispositivos móviles

La mejor experiencia del cliente en la industria

Tu pides, nosotros desarrollamos

Lanzamientos de nuevas funciones todos los días

Soporte global 24/7

Para responder a cualquier pregunta justo cuando lo necesite

Transparencia total

Tablero de rendimiento de la red en tiempo real

Gerentes de cuenta dedicados

Para optimizar su rendimiento

Soluciones a medida

ara cumplir con sus objetivos de recopilación de datos

El líder en la categoría de proxies y recopilación de datos

Category leader in proxies

Se recopilan 650 TB de datos públicos cada día

Number of ISP proxies

Nuevas características se lanzan todos los días

Serving 7/10 universities

Sirviendo a 7 de las 10 principales universidades del mundo

Trust pilot ratings

Calificación más alta de Trustpilot en la industria: 4.6/5

¿Todo listo para obtener proxies para Scrapy?