Precios de la API de archivo

Q: ¿En qué se diferencia el archivo de Bright Data de Common Crawl?

Cuando se trabaja con datos web a gran escala, la frescura, la relevancia y la accesibilidad son fundamentales. Mientras que Common Crawl proporciona una amplia instantánea histórica de la web, la API de archivo de Bright Data ofrece datos en tiempo real, actualizados continuamente, con opciones avanzadas de filtrado y entrega. A continuación se muestra una comparación entre ambos: Característica Archivo de Bright Data Common Crawl Recopilación de datos Captura continuamente datos web públicos en tiempo real, proporcionando resultados tan recientes como «ahora mismo». Rastreo web periódico (no en tiempo real), actualizado mensualmente o cada dos meses. Los datos pueden estar desactualizados. Volumen de datos 17,5 PB recopilados en 8 meses, que abarcan 118 000 millones de páginas (28 000 millones de URL únicas de 40 millones de dominios). Añade ~2,5 PB y miles de millones de URL únicas por semana. 250 000 millones de páginas recopiladas en 18 años. Cobertura y relevancia del sitio web Se centra en datos de sitios web relevantes y de alto valor basados en necesidades empresariales reales de scraping. Rastreo indiscriminado, incluyendo páginas obsoletas o de baja calidad. Tipos de datos Páginas web completas (renderizadas con JS) 98,6 % HTML y texto Filtrado y entrega Plataforma completa de descubrimiento y entrega: filtrado por categoría, dominio, idioma, fecha, etc. Entrega a través de Amazon S3 o webhook. Sin filtrado ni entrega integrados. Es necesario procesar manualmente enormes archivos WARC sin procesar.

Potencie flujos de trabajo avanzados para el entrenamiento de modelos y la búsqueda web con el repositorio de datos web más grande del mundo.

¡Regístrate ahora y igualaremos tu primer depósito dólar por dólar, hasta $500!

Comece agora

PAGUE O QUE GASTAR

$0.2 /1K HTMLs

Sem compromisso

Comece já

Incluye:

Acceso a API con filtrado avanzado (dominios, categorías, fechas, idiomas, países, rutas)
Entrega flexible: AWS, GCP, Snowflake, Databricks y más
Soporte estándar
Datos históricos (+72 horas) desde $1/1K HTMLs

EMPRESA

Contáctanos para una
cotización personalizada

Habla con un experto en ventas

Incluye:

Acceso a API con filtrado avanzado (dominios, categorías, fechas, idiomas, países, rutas)
Entrega flexible: AWS, GCP, Snowflake, Databricks y más
Soporte estándar
Gerente de cuenta dedicado
Soporte premium 24/7
Garantías de SLA
Descuentos por volumen para necesidades de datos a gran escala
Soporte de integración personalizada
Opciones de entrega extendidas

* Se ofrecen descuentos por volumen para grandes volúmenes de datos, compromisos a largo plazo o proyectos de múltiples soluciones.

Aceitamos esses métodos de pagamento:

Usa a AWS? Agora você pode pagar por meio do AWS Marketplace

Comece já

Confiado por 20,000+ clientes

Customer favorite features

Repositorio a escala de petabytes
Páginas HTML completas y metadatos
Filtrado y búsqueda avanzados
~2,5 PB añadidos diariamente
Texto, imágenes, vídeo y audio
Opciones de entrega flexibles
Más de 5 T de tokens de texto añadidos diariamente
Acceso API primero
Datos preparados para IA
Más de 2500 millones de URL de imágenes/vídeos añadidos diariamente
Sin mantenimiento
99,99 % de tiempo de actividad + asistencia 24/7

OPTIMIZADO

Pagos con AWS Marketplace

Aproveche sus compras para cumplir con sus compromisos de AWS y disfrute de un proceso de adquisición y facturación optimizado, todo en un solo lugar. Benefíciese de las sólidas comprobaciones de validación y cumplimiento de AWS para socios.

CONFORME

Cumplimiento normativo líder en el sector

Nuestras prácticas de privacidad cumplen con las leyes de protección de datos, incluido el marco regulador de protección de datos de la UE, el RGPD y la CCPA, respetando las solicitudes de ejercicio de los derechos de privacidad y más.

Preguntas frecuentes sobre la API de archivos

¿Qué es la API de archivo?

Archive API es un repositorio enorme, en continua expansión y almacenado en caché de Bright Data, diseñado para capturar y entregar datos web públicos a gran escala. Proporciona páginas web completas y metadatos, lo que lo hace ideal para el entrenamiento de IA, el aprendizaje automático y el análisis de datos a gran escala. A diferencia de los rastreadores web tradicionales, Archive API da prioridad a la relevancia, la actualidad y la usabilidad, lo que le permite acceder a las partes más importantes de Internet, ya que se recopilan a diario.

¿Con qué rapidez puedo acceder a los datos?

Puede empezar a acceder a los datos inmediatamente a través de nuestra API de archivo. La API le permite buscar, recuperar y filtrar instantáneas de datos del archivo de forma fluida y eficiente.

Datos de los últimos 3 días: la entrega tardará entre unos minutos y unas horas (dependiendo del tamaño de la instantánea).
Datos de más de 3 días: el procesamiento y la entrega tardarán entre unas horas y 3 días (dependiendo del tamaño de la instantánea).

¿Cómo se pueden entregar mis datos?

Archive ofrece dos opciones de entrega para garantizar una integración perfecta en sus flujos de trabajo existentes:

Bucket de Amazon S3: reciba su instantánea de datos directamente en su bucket de S3.
Webhook: recupérelo a través de webhook para una integración en tiempo real en sus sistemas.

¿Puedo filtrar los datos del archivo para obtener solo lo que necesito?

¡Por supuesto! La API de archivo permite filtrar por categoría, dominios, fecha, idiomas y país antes de recuperar los datos, lo que garantiza que solo obtenga lo que necesita.

¿En qué se diferencia el archivo de Bright Data de Common Crawl?

Cuando se trabaja con datos web a gran escala, la frescura, la relevancia y la accesibilidad son fundamentales. Mientras que Common Crawl proporciona una amplia instantánea histórica de la web, la API de archivo de Bright Data ofrece datos en tiempo real, actualizados continuamente, con opciones avanzadas de filtrado y entrega. A continuación se muestra una comparación entre ambos:

Característica	Archivo de Bright Data	Common Crawl
Recopilación de datos	Captura continuamente datos web públicos en tiempo real, proporcionando resultados tan recientes como «ahora mismo».	Rastreo web periódico (no en tiempo real), actualizado mensualmente o cada dos meses. Los datos pueden estar desactualizados.
Volumen de datos	17,5 PB recopilados en 8 meses, que abarcan 118 000 millones de páginas (28 000 millones de URL únicas de 40 millones de dominios). Añade ~2,5 PB y miles de millones de URL únicas por semana.	250 000 millones de páginas recopiladas en 18 años.
Cobertura y relevancia del sitio web	Se centra en datos de sitios web relevantes y de alto valor basados en necesidades empresariales reales de scraping.	Rastreo indiscriminado, incluyendo páginas obsoletas o de baja calidad.
Tipos de datos	Páginas web completas (renderizadas con JS)	98,6 % HTML y texto
Filtrado y entrega	Plataforma completa de descubrimiento y entrega: filtrado por categoría, dominio, idioma, fecha, etc. Entrega a través de Amazon S3 o webhook.	Sin filtrado ni entrega integrados. Es necesario procesar manualmente enormes archivos WARC sin procesar.

¿No está seguro de lo que necesita?

Contáctanos