API de archivo
Acceda a las vastas colecciones en caché de Bright Data, que ofrecen un descubrimiento HTML rentable de miles de millones de dominios. Con más de 1PB añadidos semanalmente, manténgase a la vanguardia con los datos más recientes. Experimente una recuperación de datos fluida y eficaz como nunca antes.
- Descubra nuevas fuentes mediante metadatos filtrables
- Dirigirse con precisión por modalidad, lengua o ámbito.
- Conjuntos de datos personalizados para necesidades puntuales o permanentes
- Servicios opcionales de anotación y etiquetado
Confiado por 20,000+ clientes
Acceda a datos web a gran escala
Archive API de Bright Data ofrece datos actualizados continuamente en tiempo real con opciones avanzadas de filtrado y entrega.
Recogida de datos
Captura continuamente datos de la web pública en tiempo real, proporcionando resultados tan recientes como "ahora".
Volumen de datos
17,5 PB recopilados en 8 meses, que abarcan 118.000 millones de páginas con ~1 PB y 2.000 millones de URL únicas añadidas por semana.
Filtrado y entrega
Cobertura y relevancia
Archivo API Playground
¿Listo para integrar la API de archivo web?
Obtenga una porción de la Web con Archive API
Recupere datos de un archivo web a escala de petabytes con miles de millones de páginas HTML. Descubra URL de vídeos e imágenes, textos en más de 100 idiomas o SERPs históricas.
Estructurado y limpio
Datos preprocesados con esquemas coherentes, perfectos para el entrenamiento y la inferencia de modelos de IA.
Ejemplos de códigos
Fragmentos de Python, Node.js, cURL, PHP, Go, Java y Ruby listos para usar para integrarlos fácilmente en los flujos de trabajo de IA.
Documentación
Guías y cuadernos completos para ChatGPT, Claude y otras integraciones de LLM.
# Para iniciar una búsqueda en nuestro Archivo, utilice el siguiente punto final /search. Punto final: POST api.brightdata.com/webarchive/search
curl -X POST https://api.brightdata.com/webarchive/search
-H "Autorización: Bearer $API_KEY"
-H "Content-Type: application/json
--data '{"filters": {"max_age": "1d", "domain_whitelist": ["ejemplo.com"]}}''
# Comprobar el estado de una consulta concreta realizada. Punto final: GET api.brightdata.com/webarchive/search/
curl https://api.brightdata.com/webarchive/search/$SEARCH_ID
-H "Autorización: Portador $API_KEY"
# Compruebe el estado de todas las búsquedas en curso. Punto final: GET api.brightdata.com/webarchive/searches
curl https://api.brightdata.com/webarchive/searches
-H "Authorization: Portador $API_KEY"
Casos de uso de la API de archivo
Recuperación fluida de datos de miles de millones de dominios
Descubra y recupere fácilmente URL de vídeo, imágenes, audio y mucho más.

Infraestructura de nivel empresarial
La plataforma de Bright Data da servicio a más de 20,000+ empresas de todo el mundo, ofreciendo tranquilidad con un tiempo de actividad del 99,99%, acceso a 150M+ IPs de usuarios reales que cubren 195 países.

Descubrimiento, recogida y tratamiento avanzados de datos
Obtenga el máximo control y flexibilidad sin necesidad de mantener una infraestructura de proxy y desbloqueo. Raspe datos fácilmente desde cualquier geolocalización evitando CAPTCHAs y bloqueos.

Adaptado a su flujo de trabajo
Obtenga datos estructurados y validados con opciones personalizadas de entrega e integración, incluidos informes a medida, paneles de control y análisis, a través de rastreos históricos y múltiples sitios web.
Cumplimiento líder del sector
Nuestras prácticas de privacidad cumplen las leyes de protección de datos, incluido el marco normativo de protección de datos de la UE, el GDPR y la CCPA, respetando las solicitudes para ejercer los derechos de privacidad y mucho más.
Empiece a recopilar datos web. Sin esfuerzo.
Archivo API Preguntas frecuentes
¿Qué es la API de archivos?
Archive API es un repositorio masivo en caché de Bright Data, en continua expansión, diseñado para capturar y entregar datos web públicos a escala.
Proporciona páginas web completas y metadatos, por lo que resulta ideal para la formación en IA, el aprendizaje automático y el análisis de datos a gran escala.
A diferencia de los rastreos web tradicionales, Archive API prioriza la relevancia, la frescura y la facilidad de uso, dándole acceso a las partes más importantes de Internet a medida que se rastrean diariamente.
¿Cuántos datos están disponibles en la API de archivos de Bright Data?
La API de archivos de Bright Data ya ha recopilado 17,5 PB de datos, que abarcan 28.000 millones de URL únicas de 40 millones de dominios, sólo en los 8 primeros meses de su lanzamiento.
Seguimos añadiendo ~1 PB de datos nuevos cada semana, junto con ~2.000 millones de URL únicas, lo que convierte a Archive en el mayor repositorio de datos web actualizados disponible, perfecto para aplicaciones basadas en IA y datos.
¿Con qué rapidez puedo acceder a los datos del archivo?
Puede empezar a acceder a los datos inmediatamente a través de nuestra API de archivo. La API le permite buscar, recuperar y filtrar instantáneas de datos del Archivo de forma fluida y eficaz.
Datos de los últimos 3 días: La entrega tardará desde unos minutos hasta unas horas (dependiendo del tamaño de la instantánea).
Datos de más de 3 días: El procesamiento y la entrega tardarán desde unas horas hasta 3 días (en función del tamaño de la instantánea).
¿Cómo se entregan mis datos?
Archive ofrece dos opciones de entrega para garantizar una integración perfecta en sus flujos de trabajo actuales:
Bucket de Amazon S3: Reciba su instantánea de datos directamente en su bucket de S3.
Webhook: Recuperado a través de webhook para la integración en tiempo real en sus sistemas.
¿Puedo filtrar los datos de Archive para obtener sólo lo que necesito?
Por supuesto. Archive API permite filtrar por categoría, dominios, fecha, idiomas y país antes de recuperar los datos, lo que garantiza que sólo obtendrá lo que necesita.