API de archivo

Acceda a las vastas colecciones en caché de Bright Data, que ofrecen un descubrimiento HTML rentable de miles de millones de dominios. Con más de 1PB añadidos semanalmente, manténgase a la vanguardia con los datos más recientes. Experimente una recuperación de datos fluida y eficaz como nunca antes.

Llevar a un experto

Descubra nuevas fuentes mediante metadatos filtrables
Dirigirse con precisión por modalidad, lengua o ámbito.
Conjuntos de datos personalizados para necesidades puntuales o permanentes
Servicios opcionales de anotación y etiquetado

Confiado por 20,000+ clientes

Acceda a datos web a gran escala

Archive API de Bright Data ofrece datos actualizados continuamente en tiempo real con opciones avanzadas de filtrado y entrega.

Recogida de datos

Captura continuamente datos de la web pública en tiempo real, proporcionando resultados tan recientes como "ahora".

Volumen de datos

17,5 PB recopilados en 8 meses, que abarcan 118.000 millones de páginas con ~1 PB y 2.000 millones de URL únicas añadidas por semana.

Filtrado y entrega

Plataforma completa de descubrimiento y entrega: filtrado por categoría, dominio, idioma, fecha, etc. Entrega a través de Amazon S3 o webhook.

Cobertura y relevancia

Archive API se centra en datos de sitios web relevantes y de gran valor basados en necesidades empresariales reales de scraping.

Archivo API Playground

Búsqueda de archivo web de demostración

Vea cómo funciona nuestra API de archivo web con dominios de ejemplo

Dominios de demostración

example.com

Rango de tiempo

Edad máxima: 1 día

Resultados del Archivo

Los resultados de su archivo aparecerán aquí

Haz clic en "Mostrar Datos del Archivo de Demostración" para ver un ejemplo de salida o configurar filtros para buscar

Ejemplos de Código

¿Listo para integrar la API de SERP?

Comienza con nuestra poderosa API SERP. Accede a resultados de búsqueda en tiempo real de Google, Bing y más.

Comienza gratis Documentación Postman

Obtenga una porción de la Web con Archive API

Recupere datos de un archivo web a escala de petabytes con miles de millones de páginas HTML. Descubra URL de vídeos e imágenes, textos en más de 100 idiomas o SERPs históricas.

Estructurado y limpio

Datos preprocesados con esquemas coherentes, perfectos para el entrenamiento y la inferencia de modelos de IA.

Ejemplos de códigos

Fragmentos de Python, Node.js, cURL, PHP, Go, Java y Ruby listos para usar para integrarlos fácilmente en los flujos de trabajo de IA.

Documentación

Guías y cuadernos completos para ChatGPT, Claude y otras integraciones de LLM.

                              # Para iniciar una búsqueda en nuestro Archivo, utilice el siguiente punto final /search. Punto final: POST api.brightdata.com/webarchive/search

curl -X POST https://api.brightdata.com/webarchive/search 
  -H "Autorización: Bearer $API_KEY" 
  -H "Content-Type: application/json 
  --data '{"filters": {"max_age": "1d", "domain_whitelist": ["ejemplo.com"]}}''

                              # Comprobar el estado de una consulta concreta realizada. Punto final: GET api.brightdata.com/webarchive/search/

curl https://api.brightdata.com/webarchive/search/$SEARCH_ID 
  -H "Autorización: Portador $API_KEY"

                              # Compruebe el estado de todas las búsquedas en curso. Punto final: GET api.brightdata.com/webarchive/searches

curl https://api.brightdata.com/webarchive/searches 
  -H "Authorization: Portador $API_KEY"

Casos de uso de la API de archivo

Rastree los cambios de contenido y analice las tendencias a través de miles de millones de instantáneas web históricas. Acceda a 17,5 PB de datos almacenados en caché de 40 millones de dominios para realizar estudios longitudinales, análisis de la competencia e inteligencia de mercado sin necesidad de volver a rastrearlos.

Hable con un experto

Cree índices de búsqueda exhaustivos de forma instantánea con contenido previamente extraído y renderizado en JS de millones de dominios. Filtre por categoría, idioma y fecha para crear índices específicos y reducir los costes de infraestructura.

Hable con un experto

Entrene modelos de IA con 17,5 PB de datos web limpios. Obtenga contenidos frescos y de alta calidad de diversas fuentes, con 1 PB añadido semanalmente, entregados en formatos optimizados para aplicaciones de aprendizaje automático.

Hable con un experto

Recuperación fluida de datos de miles de millones de dominios

Descubra y recupere fácilmente URL de vídeo, imágenes, audio y mucho más.

FLEXIBLE

Infraestructura de nivel empresarial

La plataforma de Bright Data da servicio a más de 20,000+ empresas de todo el mundo, ofreciendo tranquilidad con un tiempo de actividad del 99,99%, acceso a 400M+ IPs de usuarios reales que cubren 195 países.

ESCALABLE

Descubrimiento, recogida y tratamiento avanzados de datos

Obtenga el máximo control y flexibilidad sin necesidad de mantener una infraestructura de proxy y desbloqueo. Raspe datos fácilmente desde cualquier geolocalización evitando CAPTCHAs y bloqueos.

ESTABLE

Adaptado a su flujo de trabajo

Obtenga datos estructurados y validados con opciones personalizadas de entrega e integración, incluidos informes a medida, paneles de control y análisis, a través de rastreos históricos y múltiples sitios web.

CUMPLE

Cumplimiento líder del sector

Nuestras prácticas de privacidad cumplen las leyes de protección de datos, incluido el marco normativo de protección de datos de la UE, el GDPR y la CCPA, respetando las solicitudes para ejercer los derechos de privacidad y mucho más.

Empiece a recopilar datos web. Sin esfuerzo.

Hable con un experto

Archivo API Preguntas frecuentes

¿Qué es la API de archivos?

Archive API es un repositorio masivo en caché de Bright Data, en continua expansión, diseñado para capturar y entregar datos web públicos a escala.

Proporciona páginas web completas y metadatos, por lo que resulta ideal para la formación en IA, el aprendizaje automático y el análisis de datos a gran escala.

A diferencia de los rastreos web tradicionales, Archive API prioriza la relevancia, la frescura y la facilidad de uso, dándole acceso a las partes más importantes de Internet a medida que se rastrean diariamente.

¿Cuántos datos están disponibles en la API de archivos de Bright Data?

La API de archivos de Bright Data ya ha recopilado 17,5 PB de datos, que abarcan 28.000 millones de URL únicas de 40 millones de dominios, sólo en los 8 primeros meses de su lanzamiento.

Seguimos añadiendo ~1 PB de datos nuevos cada semana, junto con ~2.000 millones de URL únicas, lo que convierte a Archive en el mayor repositorio de datos web actualizados disponible, perfecto para aplicaciones basadas en IA y datos.

¿Con qué rapidez puedo acceder a los datos del archivo?

Puede empezar a acceder a los datos inmediatamente a través de nuestra API de archivo. La API le permite buscar, recuperar y filtrar instantáneas de datos del Archivo de forma fluida y eficaz.

Datos de los últimos 3 días: La entrega tardará desde unos minutos hasta unas horas (dependiendo del tamaño de la instantánea).

Datos de más de 3 días: El procesamiento y la entrega tardarán desde unas horas hasta 3 días (en función del tamaño de la instantánea).

¿Cómo se entregan mis datos?

Archive ofrece dos opciones de entrega para garantizar una integración perfecta en sus flujos de trabajo actuales:

Bucket de Amazon S3: Reciba su instantánea de datos directamente en su bucket de S3.

Webhook: Recuperado a través de webhook para la integración en tiempo real en sus sistemas.

¿Puedo filtrar los datos de Archive para obtener sólo lo que necesito?

Por supuesto. Archive API permite filtrar por categoría, dominios, fecha, idiomas y país antes de recuperar los datos, lo que garantiza que sólo obtendrá lo que necesita.