Archive API Pricing
Power advanced pipelines for model training and web search with the world's largest web data repository
Confiado por 20,000+ clientes
Customer favorite features
- Repositorio a escala de petabytes
- Páginas HTML completas y metadatos
- Filtrado y búsqueda avanzados
- ~2,5 PB añadidos diariamente
- Texto, imágenes, vídeo y audio
- Opciones de entrega flexibles
- Más de 5 T de tokens de texto añadidos diariamente
- Acceso API primero
- Datos preparados para IA
- Más de 2500 millones de URL de imágenes/vídeos añadidos diariamente
- Sin mantenimiento
- 99,99 % de tiempo de actividad + asistencia 24/7
Pagos con AWS Marketplace
Aproveche sus compras para cumplir con sus compromisos de AWS y disfrute de un proceso de adquisición y facturación optimizado, todo en un solo lugar. Benefíciese de las sólidas comprobaciones de validación y cumplimiento de AWS para socios.
Cumplimiento normativo líder en el sector
Nuestras prácticas de privacidad cumplen con las leyes de protección de datos, incluido el marco regulador de protección de datos de la UE, el RGPD y la CCPA, respetando las solicitudes de ejercicio de los derechos de privacidad y más.
Preguntas frecuentes sobre la API de archivos
¿Qué es la API de archivo?
Archive API es un repositorio enorme, en continua expansión y almacenado en caché de Bright Data, diseñado para capturar y entregar datos web públicos a gran escala. Proporciona páginas web completas y metadatos, lo que lo hace ideal para el entrenamiento de IA, el aprendizaje automático y el análisis de datos a gran escala. A diferencia de los rastreadores web tradicionales, Archive API da prioridad a la relevancia, la actualidad y la usabilidad, lo que le permite acceder a las partes más importantes de Internet, ya que se recopilan a diario.
¿Con qué rapidez puedo acceder a los datos?
Puede empezar a acceder a los datos inmediatamente a través de nuestra API de archivo. La API le permite buscar, recuperar y filtrar instantáneas de datos del archivo de forma fluida y eficiente.
- Datos de los últimos 3 días: la entrega tardará entre unos minutos y unas horas (dependiendo del tamaño de la instantánea).
- Datos de más de 3 días: el procesamiento y la entrega tardarán entre unas horas y 3 días (dependiendo del tamaño de la instantánea).
¿Cómo se pueden entregar mis datos?
Archive ofrece dos opciones de entrega para garantizar una integración perfecta en sus flujos de trabajo existentes:
- Bucket de Amazon S3: reciba su instantánea de datos directamente en su bucket de S3.
- Webhook: recupérelo a través de webhook para una integración en tiempo real en sus sistemas.
¿Puedo filtrar los datos del archivo para obtener solo lo que necesito?
¡Por supuesto! La API de archivo permite filtrar por categoría, dominios, fecha, idiomas y país antes de recuperar los datos, lo que garantiza que solo obtenga lo que necesita.
¿En qué se diferencia el archivo de Bright Data de Common Crawl?
Cuando se trabaja con datos web a gran escala, la frescura, la relevancia y la accesibilidad son fundamentales. Mientras que Common Crawl proporciona una amplia instantánea histórica de la web, la API de archivo de Bright Data ofrece datos en tiempo real, actualizados continuamente, con opciones avanzadas de filtrado y entrega. A continuación se muestra una comparación entre ambos:
| Característica | Archivo de Bright Data | Common Crawl |
| Recopilación de datos | Captura continuamente datos web públicos en tiempo real, proporcionando resultados tan recientes como «ahora mismo». | Rastreo web periódico (no en tiempo real), actualizado mensualmente o cada dos meses. Los datos pueden estar desactualizados. |
| Volumen de datos | 17,5 PB recopilados en 8 meses, que abarcan 118 000 millones de páginas (28 000 millones de URL únicas de 40 millones de dominios). Añade ~2,5 PB y miles de millones de URL únicas por semana. | 250 000 millones de páginas recopiladas en 18 años. |
| Cobertura y relevancia del sitio web | Se centra en datos de sitios web relevantes y de alto valor basados en necesidades empresariales reales de scraping. | Rastreo indiscriminado, incluyendo páginas obsoletas o de baja calidad. |
| Tipos de datos | Páginas web completas (renderizadas con JS) | 98,6 % HTML y texto |
| Filtrado y entrega | Plataforma completa de descubrimiento y entrega: filtrado por categoría, dominio, idioma, fecha, etc. Entrega a través de Amazon S3 o webhook. | Sin filtrado ni entrega integrados. Es necesario procesar manualmente enormes archivos WARC sin procesar. |