Data Firehose & Web Archive Pricing

Stream real-time public web records with Data Firehose, or access 90PB+ of cached pages with Web Archive.

DATA FIREHOSE (LAST 24 HRS)
$0.2/ 1K HTMLs
Habla con un experto en datos.
Incluye:
  • Fresh data - up to 24 hours
  • ~1 hour delivery (depending on snapshot size)
  • Acceso a API con filtrado avanzado (dominios, categorías, fechas, idiomas, países, rutas)
  • Flexible delivery: Amazon S3, Azure Blob Storage, Webhook)
  • soporte 24/7
  • Descuentos por volumen para necesidades de datos a gran escala
Best for: Continuously refreshed data pipelines
Common use case:
  • AI search & analytics pipelines requiring up-to-date content
  • Aggregated Web Unlocker and SERP cache - updated hourly
  • Continuous web monitoring and indexing
Archived data (Over 24 hrs)
$1/ 1K HTMLs
Habla con un experto en datos.
Incluye:
  • Historical data - Over 24 hours
  • Minimum 2 days delivery (depending on snapshot size)
  • Acceso a API con filtrado avanzado (dominios, categorías, fechas, idiomas, países, rutas)
  • Flexible delivery: Amazon S3, Azure Blob Storage, Webhook
  • soporte 24/7
  • Descuentos por volumen para necesidades de datos a gran escala
Best for: Historical data at scale
Common use case:
  • AI model training data backfilling at scale
  • Reproducible historical snapshots for research & indexing
  • Auditing or analyzing past web content across domains
* Los descuentos por volumen están disponibles para grandes volúmenes de datos, compromisos a largo plazo o múltiples proyectos de scraper
Aceitamos esses métodos de pagamento:

Customer favorite features

  • Repositorio a escala de petabytes
  • Páginas HTML completas y metadatos
  • Filtrado y búsqueda avanzados
  • ~2,5 PB añadidos diariamente
  • Texto, imágenes, video y audio
  • Opciones de entrega flexibles
  • Más de 5T tokens de texto añadidos diariamente
  • Acceso API-first
  • Datos para IA
  • Más de 2.500 millones de URLs de imágenes/video añadidas diariamente
  • Sin mantenimiento
  • 99,99% de disponibilidad + soporte 24/7
OPTIMIZADO

Pagos con AWS Marketplace

Aprovecha tus compras para cumplir tus compromisos de AWS y disfruta de una adquisición y facturación optimizadas en un solo lugar. Benefíciate de la sólida validación y los controles de cumplimiento de AWS para socios.

CUMPLIMIENTO

Cumplimiento Líder en la Industria

Nuestras prácticas de privacidad cumplen con las leyes de protección de datos, incluido el marco regulatorio de protección de datos de la UE, el GDPR y la CCPA, respetando las solicitudes para ejercer derechos de privacidad y más.

¿No estás seguro de lo que necesitas?

Preguntas frecuentes sobre Archive API

Data Firehose entrega un flujo continuo y en tiempo real de datos web activos a medida que se recopilan (~1.000 millones de registros ingeridos diariamente), ideal para monitoreo activo, seguimiento de precios y pipelines de entrenamiento de IA en curso. Web Archive proporciona acceso a un enorme repositorio histórico de más de 624.000 millones de páginas web en caché (más de 90 PB), perfecto para investigación profunda, backtesting y análisis longitudinal. Muchos equipos empresariales usan ambos: Firehose para señales recientes y Archive para contexto histórico.

Puedes comenzar a acceder a los datos de inmediato a través de nuestro Data Firehose. La API te permite buscar, recuperar y filtrar instantáneas de datos de forma fluida y eficiente.

  • Datos del último 1 día: Se entregarán en minutos y hasta unas pocas horas (según el tamaño de la instantánea)
  • Datos de más de 1 día: Tomarán desde unas pocas horas hasta 3 días para procesar y entregar (según el tamaño de la instantánea)

Archive ofrece dos opciones de entrega para garantizar una integración fluida en tus flujos de trabajo existentes:

  • Bucket de Amazon S3: Recibe tu instantánea de datos directamente en tu bucket de S3.
  • Webhook: Recuperado mediante webhook para integración en tiempo real en tus sistemas.

¡Por supuesto! Tanto Data Firehose como Archive API permiten filtrar por categoría, dominios, fecha, idiomas y país antes de recuperar los datos, asegurando que solo obtengas lo que necesitas.

No, los métodos de entrega estándar están incluidos en tu costo. Tanto para Data Firehose como para Web Archive, puedes elegir que tus datos se entreguen directamente a un bucket de Amazon S3 o se recuperen mediante Webhook para una integración fluida en tus sistemas existentes. Data Firehose también admite streaming continuo e inmediato.

No, el filtrado personalizado es una capacidad principal, no un complemento de pago. Fomentamos el filtrado estricto por categoría, dominio, fecha, idioma y país. Al delimitar correctamente tu flujo o recuperación de archivo, reduces el volumen total de registros irrelevantes enviados, lo que optimiza tus costos generales de datos.

Al trabajar con datos web a gran escala, la frescura, la relevancia y la accesibilidad son clave. Mientras que Common Crawl proporciona una amplia instantánea histórica de la web, Archive API de Bright Data ofrece datos en tiempo real y actualizados continuamente con opciones avanzadas de filtrado y entrega. Así se comparan:

Característica Archive de Bright Data Common Crawl
Recopilación de datos Captura continuamente datos web públicos en tiempo real, proporcionando resultados tan recientes como "ahora". Rastreo web periódico (no en tiempo real), actualizado mensual o bimensualmente. Los datos pueden estar desactualizados
Volumen de datos 17,5 PB recopilados en 8 meses, cubriendo 118.000 millones de páginas (28.000 millones de URLs únicas de 40 millones de dominios). Añade ~2,5 PB y miles de millones de URLs únicas por semana. 250.000 millones de páginas recopiladas en 18 años.
Cobertura y relevancia de sitios web Se centra en datos de sitios web relevantes y de alto valor basados en necesidades reales de scraping web. Rastrea indiscriminadamente, incluyendo páginas desactualizadas o de baja calidad.
Tipos de datos Páginas web completas (renderizadas con JS) 98,6% HTML y texto
Filtrado y entrega Plataforma completa de descubrimiento y entrega: filtrado por categoría, dominio, idioma, fecha, etc. Entregado mediante Amazon S3 o webhook. Sin filtrado ni entrega integrados. Es necesario procesar manualmente enormes archivos WARC sin procesar.