Aumenta la potencia de navegador sin interfaz gráfica de raspado
Ventajas de Scraping Browser
Reducir los costes de infraestructura
Configura y escala de forma automática el entorno de un navegador a través de una única API, la cual ofrece sesiones y tareas simultáneas e ilimitadas para extraer datos de forma continua.
Aumentar el número de casos de éxito
Deja de crear parches de desbloqueo y accesos cualquier tipo de datos web públicos con garantía de futuro mediante una herramienta integrada de desbloqueo y un gran conjunto de direcciones IP residenciales.
Aumentar la productividad de los desarrolladores
Consigue que tus desarrolladores se «centren» en lo que de verdad importa ejecutando tus secuencias de comandos existentes en una nube híbrida con una única línea de código y que, de este modo, tus desarrolladores se quiten de problemas por tener que hacer operaciones de raspado.
Infraestructura de escalado automático
Conecta tus secuencias de comandos de raspado interactivas y de varios pasos a un navegador que sea híbrido, ya que ofrece sesiones simultáneas ilimitadas con una sola línea de código.
Sácale partido al desbloqueo autónomo
Toma de huellas digitales del navegador
Emula los navegadores de usuarios reales para simular una experiencia humana
Resolución de CAPTCHA
Analiza y resuelve los CAPTCHA y las pruebas de desafío-respuesta
Gestiona agentes de usuario específicos
Imita automáticamente diferentes tipos de navegadores y dispositivos
Establece los encabezados de referencia
Simula el tráfico que se origina en sitios web populares o de confianza
Gestiona las cookies
Evita posibles bloqueos impuestos por factores relacionados con las cookies
Realiza reintentos y rota las IP automáticamente
Reintenta continuamente las solicitudes y rota las IP en segundo plano
Geocobertura mundial
Accede a contenido geolocalizado desde cualquier país, ciudad, estado o ASN
Representación de JavaScript
Extrae datos de sitios web que se basan en elementos dinámicos
Validaciones de integridad de datos
Garantiza la precisión, la coherencia y la fiabilidad de los datos
Conjunto muy amplio de IP reales
Accede a los sitios web como un usuario real utilizando más de 72 millones de IP residenciales de origen ético, cobertura en 195 países y varias API para una configuración y una gestión avanzadas.
const pw = require('playwright');
const SBR_CDP = 'wss://brd-customer-CUSTOMER_ID-zone-ZONE_NAME:[email protected]:9222';
async function main() {
console.log('Connecting to Scraping Browser...');
const browser = await pw.chromium.connectOverCDP(SBR_CDP);
try {
const page = await browser.newPage();
console.log('Connected! Navigating to https://example.com...');
await page.goto('https://example.com');
console.log('Navigated! Scraping page content...');
const html = await page.content();
console.log(html);
} finally {
await browser.close();
}
}
main().catch(err => {
console.error(err.stack || err);
process.exit(1);
});
import asyncio
from playwright.async_api import async_playwright
SBR_WS_CDP = 'wss://brd-customer-CUSTOMER_ID-zone-ZONE_NAME:[email protected]:9222'
async def run(pw):
print('Connecting to Scraping Browser...')
browser = await pw.chromium.connect_over_cdp(SBR_WS_CDP)
try:
page = await browser.new_page()
print('Connected! Navigating to https://example.com...')
await page.goto('https://example.com')
print('Navigated! Scraping page content...')
html = await page.content()
print(html)
finally:
await browser.close()
async def main():
async with async_playwright() as playwright:
await run(playwright)
if __name__ == '__main__':
asyncio.run(main())
const puppeteer = require('puppeteer-core');
const SBR_WS_ENDPOINT = 'wss://brd-customer-CUSTOMER_ID-zone-ZONE_NAME:[email protected]:9222';
async function main() {
console.log('Connecting to Scraping Browser...');
const browser = await puppeteer.connect({
browserWSEndpoint: SBR_WS_ENDPOINT,
});
try {
const page = await browser.newPage();
console.log('Connected! Navigating to https://example.com...');
await page.goto('https://example.com');
console.log('Navigated! Scraping page content...');
const html = await page.content();
console.log(html)
} finally {
await browser.close();
}
}
main().catch(err => {
console.error(err.stack || err);
process.exit(1);
});
const { Builder, Browser } = require('selenium-webdriver');
const SBR_WEBDRIVER = 'https://brd-customer-CUSTOMER_ID-zone-ZONE_NAME:[email protected]:9515';
async function main() {
console.log('Connecting to Scraping Browser...');
const driver = await new Builder()
.forBrowser(Browser.CHROME)
.usingServer(SBR_WEBDRIVER)
.build();
try {
console.log('Connected! Navigating to https://example.com...');
await driver.get('https://example.com');
console.log('Navigated! Scraping page content...');
const html = await driver.getPageSource();
console.log(html);
} finally {
driver.quit();
}
}
main().catch(err => {
console.error(err.stack || err);
process.exit(1);
});
from selenium.webdriver import Remote, ChromeOptions
from selenium.webdriver.chromium.remote_connection import ChromiumRemoteConnection
SBR_WEBDRIVER = 'https://brd-customer-CUSTOMER_ID-zone-ZONE_NAME:[email protected]:9515'
def main():
print('Connecting to Scraping Browser...')
sbr_connection = ChromiumRemoteConnection(SBR_WEBDRIVER, 'goog', 'chrome')
with Remote(sbr_connection, options=ChromeOptions()) as driver:
print('Connected! Navigating to https://example.com...')
driver.get('https://example.com')
print('Navigated! Scraping page content...')
html = driver.page_source
print(html)
if __name__ == '__main__':
main()
Raspado dinámico centrado en los desarrolladores
- Ejecuta tus secuencias de comandos de Puppeteer, Selenium o Playwright
- Personaliza los flujos de trabajo de proxy residenciales mediante la API
- Solución de problemas y supervisión con Chrome DevTools
- Deshazte de las tareas de mantenimiento de los desbloqueos
Compatible con Chrome DevTools
Utiliza el depurador Chrome DevTools para comprobar y solucionar problemas de rendimiento de tu navegador de raspado sin ningún tipo de inconveniente.
Precios de Scraping Browser
Pagar con AWS Marketplace
Optimiza los pagos con AWS Marketplace y mejora la eficiencia de las compras y de la facturación. Utiliza los compromisos actuales de AWS y aprovecha sus promociones.
Servicio de asistencia las 24 horas del día
Recibe asistencia de expertos las 24 horas del día, resuelve los problemas con rapidez y asegúrate una entrega de datos de buena calidad. Si quieres conseguir una transparencia total, incluye una visibilidad en tiempo real del estado de la red.
Preguntas frecuentes
¿Qué es Scraping Browser?
Scraping Browser funciona como otros navegadores automatizados y está controlado por varias API comunes de alto nivel como Puppeteer y Playwright, pero es el único navegador con funciones integradas para desbloquear sitios web. Scraping Browser se encarga de llevar a cabo todas las operaciones de desbloqueo de sitios web de forma automática, como la resolución de los CAPTCHA, la toma de huellas dactilares del navegador, los reintentos automáticos, la selección de encabezados, las cookies y el procesamiento de Javascript, entre otras, para que puedas ahorrar tiempo y recursos.
¿Cuándo tengo que usar un navegador de raspado web?
Los desarrolladores, para extraer los datos, utilizan navegadores automatizados cuando tienen que generar una página en JavaScript o interactuar con un sitio web (pasar el ratón, cambiar de página, hacer clic, hacer capturas de pantalla, etc.). Además, los navegadores son útiles para proyectos en los que haya que extraer datos a gran escala cuando se abordan varias páginas a la vez.
¿Scraping Browser es un navegador con o sin interfaz gráfica de usuario?
Scraping Browser es un navegador GUI (también conocido como navegador «headfull») que utiliza una interfaz gráfica de usuario. Sin embargo, los desarrolladores utilizarán Scraping Browser como si fuera un navegador sin interfaz gráfica porque interactuará con el navegador a través de una API como Puppeteer o Playwright. Sin embargo, Scraping Browser se abre como un navegador GUI en la infraestructura de Bright Data.
A la hora de hacer raspado web, ¿cuál es la diferencia entre los navegadores con y sin interfaz gráfica de usuario?
Cuando se opta por un navegador automatizado, los desarrolladores pueden elegir entre un navegador sin interfaz gráfica de usuario o un navegador con interfaz gráfica de usuario. El término «navegador "headless"» se refiere a un navegador web sin una interfaz gráfica de usuario. Los navegadores sin interfaz gráfica, cuando se utilizan con un proxy, se pueden usar para extraer datos, pero el programa de protección contra los bots los detecta con facilidad y esto dificulta poder hacer un raspado de datos a gran escala. Los navegadores GUI, como Scraping Browser (que también se conocen como «headfull»), utilizan una interfaz gráfica de usuario. Hay menos probabilidades de que un programa de detección de bots detecte los navegadores GUI.
¿Por qué Scraping Browser es mejor que Headless Chrome o que Selenium para el raspado web en Python?
Scraping Browser viene con una función integrada que te permite desbloquear sitios web que gestionan el bloqueo de forma automática. Los navegadores de Scraping Browser utilizan el desbloqueo automático y se abren en los servidores de Bright Data, por lo que son ideales para escalar proyectos de extracción de datos web sin tener que disponer de una infraestructura extensa.
¿Scraping Browser es compatible con el raspado de Puppeteer?
Sí, Scraping Browser es totalmente compatible con Puppeteer.
¿El raspado de Playwright es compatible con Scraping Browser?
Sí, Scraping Browser es totalmente compatible con Playwright.
¿Cuándo debo usar Scraping Browser en lugar de otros productos de proxy de Bright Data?
Scraping Browser es un navegador automatizado y optimizado para el raspado de datos que, además, cuenta con la potencia de las funciones de desbloqueo automático de Web Unlocker. Aunque Web Unlocker funciona con solicitudes de un solo paso, hace falta disponer de Scraping Browser cuando un desarrollador necesita interactuar con un sitio web para extraer los datos. También es ideal para cualquier proyecto de extracción de datos en el que haga falta contar con navegadores, escalado y una gestión automatizada de todas las acciones de desbloqueo de sitios web.