Data Firehose & Web Archive Pricing
Stream real-time public web records with Data Firehose, or access 90PB+ of cached pages with Web Archive.
Confiado por 20,000+ clientes
Customer favorite features
- Repositorio a escala de petabytes
- Páginas HTML completas y metadatos
- Filtrado y búsqueda avanzados
- ~2,5 PB añadidos diariamente
- Texto, imágenes, video y audio
- Opciones de entrega flexibles
- Más de 5T tokens de texto añadidos diariamente
- Acceso API-first
- Datos para IA
- Más de 2.500 millones de URLs de imágenes/video añadidas diariamente
- Sin mantenimiento
- 99,99% de disponibilidad + soporte 24/7
Pagos con AWS Marketplace
Aprovecha tus compras para cumplir tus compromisos de AWS y disfruta de una adquisición y facturación optimizadas en un solo lugar. Benefíciate de la sólida validación y los controles de cumplimiento de AWS para socios.
Cumplimiento Líder en la Industria
Nuestras prácticas de privacidad cumplen con las leyes de protección de datos, incluido el marco regulatorio de protección de datos de la UE, el GDPR y la CCPA, respetando las solicitudes para ejercer derechos de privacidad y más.
¿No estás seguro de lo que necesitas?
Preguntas frecuentes sobre Archive API
¿Cuál es la diferencia entre Data Firehose y Web Archive?
Data Firehose entrega un flujo continuo y en tiempo real de datos web activos a medida que se recopilan (~1.000 millones de registros ingeridos diariamente), ideal para monitoreo activo, seguimiento de precios y pipelines de entrenamiento de IA en curso. Web Archive proporciona acceso a un enorme repositorio histórico de más de 624.000 millones de páginas web en caché (más de 90 PB), perfecto para investigación profunda, backtesting y análisis longitudinal. Muchos equipos empresariales usan ambos: Firehose para señales recientes y Archive para contexto histórico.
¿Con qué rapidez puedo acceder a los datos?
Puedes comenzar a acceder a los datos de inmediato a través de nuestro Data Firehose. La API te permite buscar, recuperar y filtrar instantáneas de datos de forma fluida y eficiente.
- Datos del último 1 día: Se entregarán en minutos y hasta unas pocas horas (según el tamaño de la instantánea)
- Datos de más de 1 día: Tomarán desde unas pocas horas hasta 3 días para procesar y entregar (según el tamaño de la instantánea)
¿Cómo se pueden entregar mis datos?
Archive ofrece dos opciones de entrega para garantizar una integración fluida en tus flujos de trabajo existentes:
- Bucket de Amazon S3: Recibe tu instantánea de datos directamente en tu bucket de S3.
- Webhook: Recuperado mediante webhook para integración en tiempo real en tus sistemas.
¿Puedo filtrar los datos de Archive para obtener solo lo que necesito?
¡Por supuesto! Tanto Data Firehose como Archive API permiten filtrar por categoría, dominios, fecha, idiomas y país antes de recuperar los datos, asegurando que solo obtengas lo que necesitas.
¿Hay cargos adicionales por los diferentes métodos de entrega?
No, los métodos de entrega estándar están incluidos en tu costo. Tanto para Data Firehose como para Web Archive, puedes elegir que tus datos se entreguen directamente a un bucket de Amazon S3 o se recuperen mediante Webhook para una integración fluida en tus sistemas existentes. Data Firehose también admite streaming continuo e inmediato.
¿Pago extra por aplicar filtros personalizados a mis datos?
No, el filtrado personalizado es una capacidad principal, no un complemento de pago. Fomentamos el filtrado estricto por categoría, dominio, fecha, idioma y país. Al delimitar correctamente tu flujo o recuperación de archivo, reduces el volumen total de registros irrelevantes enviados, lo que optimiza tus costos generales de datos.
¿Cómo se compara el Archive de Bright Data con Common Crawl?
Al trabajar con datos web a gran escala, la frescura, la relevancia y la accesibilidad son clave. Mientras que Common Crawl proporciona una amplia instantánea histórica de la web, Archive API de Bright Data ofrece datos en tiempo real y actualizados continuamente con opciones avanzadas de filtrado y entrega. Así se comparan:
| Característica | Archive de Bright Data | Common Crawl |
| Recopilación de datos | Captura continuamente datos web públicos en tiempo real, proporcionando resultados tan recientes como "ahora". | Rastreo web periódico (no en tiempo real), actualizado mensual o bimensualmente. Los datos pueden estar desactualizados |
| Volumen de datos | 17,5 PB recopilados en 8 meses, cubriendo 118.000 millones de páginas (28.000 millones de URLs únicas de 40 millones de dominios). Añade ~2,5 PB y miles de millones de URLs únicas por semana. | 250.000 millones de páginas recopiladas en 18 años. |
| Cobertura y relevancia de sitios web | Se centra en datos de sitios web relevantes y de alto valor basados en necesidades reales de scraping web. | Rastrea indiscriminadamente, incluyendo páginas desactualizadas o de baja calidad. |
| Tipos de datos | Páginas web completas (renderizadas con JS) | 98,6% HTML y texto |
| Filtrado y entrega | Plataforma completa de descubrimiento y entrega: filtrado por categoría, dominio, idioma, fecha, etc. Entregado mediante Amazon S3 o webhook. | Sin filtrado ni entrega integrados. Es necesario procesar manualmente enormes archivos WARC sin procesar. |