Archive API Pricing

Power advanced pipelines for model training and web search with the world's largest web data repository

pay as you go plan icon
PAGUE O QUE GASTAR
$0.2 /1K HTMLs
Sem compromisso
Comece já
Includes:
  • API access with advanced filtering (domains, categories, dates, languages, countries, paths)
  • Flexible delivery: AWS, GCP, Snowflake, Databricks and more
  • Standard support
  • Historical data (+72 hours) starts at $1/1K HTMLs
2nd plan icon
EMPRESA
Contact us for a
personalized quote
Talk to a sales expert
Includes:
  • API access with advanced filtering (domains, categories, dates, languages, countries, paths)
  • Flexible delivery: AWS, GCP, Snowflake, Databricks and more
  • Standard support
  • Dedicated Account Manager
  • 24/7 premium support
  • SLA guarantees
  • Volume discounts for large-scale data needs
  • Custom integration support
  • Extended delivery options
* Volume discounts are available for large data volumes, long-term commitments, or multi-solution projects.
Aceitamos esses métodos de pagamento:
AWS logoUsa a AWS? Agora você pode pagar por meio do AWS Marketplace
Comece já

Customer favorite features

  • Repositorio a escala de petabytes
  • Páginas HTML completas y metadatos
  • Filtrado y búsqueda avanzados
  • ~2,5 PB añadidos diariamente
  • Texto, imágenes, vídeo y audio
  • Opciones de entrega flexibles
  • Más de 5 T de tokens de texto añadidos diariamente
  • Acceso API primero
  • Datos preparados para IA
  • Más de 2500 millones de URL de imágenes/vídeos añadidos diariamente
  • Sin mantenimiento
  • 99,99 % de tiempo de actividad + asistencia 24/7
OPTIMIZADO

Pagos con AWS Marketplace

Aproveche sus compras para cumplir con sus compromisos de AWS y disfrute de un proceso de adquisición y facturación optimizado, todo en un solo lugar. Benefíciese de las sólidas comprobaciones de validación y cumplimiento de AWS para socios.

CONFORME

Cumplimiento normativo líder en el sector

Nuestras prácticas de privacidad cumplen con las leyes de protección de datos, incluido el marco regulador de protección de datos de la UE, el RGPD y la CCPA, respetando las solicitudes de ejercicio de los derechos de privacidad y más.

Preguntas frecuentes sobre la API de archivos

Archive API es un repositorio enorme, en continua expansión y almacenado en caché de Bright Data, diseñado para capturar y entregar datos web públicos a gran escala. Proporciona páginas web completas y metadatos, lo que lo hace ideal para el entrenamiento de IA, el aprendizaje automático y el análisis de datos a gran escala. A diferencia de los rastreadores web tradicionales, Archive API da prioridad a la relevancia, la actualidad y la usabilidad, lo que le permite acceder a las partes más importantes de Internet, ya que se recopilan a diario.

Puede empezar a acceder a los datos inmediatamente a través de nuestra API de archivo. La API le permite buscar, recuperar y filtrar instantáneas de datos del archivo de forma fluida y eficiente.

  • Datos de los últimos 3 días: la entrega tardará entre unos minutos y unas horas (dependiendo del tamaño de la instantánea).
  • Datos de más de 3 días: el procesamiento y la entrega tardarán entre unas horas y 3 días (dependiendo del tamaño de la instantánea).

Archive ofrece dos opciones de entrega para garantizar una integración perfecta en sus flujos de trabajo existentes:

  • Bucket de Amazon S3: reciba su instantánea de datos directamente en su bucket de S3.
  • Webhook: recupérelo a través de webhook para una integración en tiempo real en sus sistemas.

¡Por supuesto! La API de archivo permite filtrar por categoría, dominios, fecha, idiomas y país antes de recuperar los datos, lo que garantiza que solo obtenga lo que necesita.

Cuando se trabaja con datos web a gran escala, la frescura, la relevancia y la accesibilidad son fundamentales. Mientras que Common Crawl proporciona una amplia instantánea histórica de la web, la API de archivo de Bright Data ofrece datos en tiempo real, actualizados continuamente, con opciones avanzadas de filtrado y entrega. A continuación se muestra una comparación entre ambos:

Característica Archivo de Bright Data Common Crawl
Recopilación de datos Captura continuamente datos web públicos en tiempo real, proporcionando resultados tan recientes como «ahora mismo». Rastreo web periódico (no en tiempo real), actualizado mensualmente o cada dos meses. Los datos pueden estar desactualizados.
Volumen de datos 17,5 PB recopilados en 8 meses, que abarcan 118 000 millones de páginas (28 000 millones de URL únicas de 40 millones de dominios). Añade ~2,5 PB y miles de millones de URL únicas por semana. 250 000 millones de páginas recopiladas en 18 años.
Cobertura y relevancia del sitio web Se centra en datos de sitios web relevantes y de alto valor basados en necesidades empresariales reales de scraping. Rastreo indiscriminado, incluyendo páginas obsoletas o de baja calidad.
Tipos de datos Páginas web completas (renderizadas con JS) 98,6 % HTML y texto
Filtrado y entrega Plataforma completa de descubrimiento y entrega: filtrado por categoría, dominio, idioma, fecha, etc. Entrega a través de Amazon S3 o webhook. Sin filtrado ni entrega integrados. Es necesario procesar manualmente enormes archivos WARC sin procesar.

¿No está seguro de lo que necesita?