API de archivo

Acceda a las vastas colecciones en caché de Bright Data, que ofrecen un descubrimiento HTML rentable de miles de millones de dominios. Con más de 1PB añadidos semanalmente, manténgase a la vanguardia con los datos más recientes. Experimente una recuperación de datos fluida y eficaz como nunca antes.

Llevar a un experto
archive api
  • Descubra nuevas fuentes mediante metadatos filtrables
  • Dirigirse con precisión por modalidad, lengua o ámbito.
  • Conjuntos de datos personalizados para necesidades puntuales o permanentes
  • Servicios opcionales de anotación y etiquetado
TRUSTED BY 20,000+ CUSTOMERS WORLDWIDE

Acceda a datos web a gran escala

Archive API de Bright Data ofrece datos actualizados continuamente en tiempo real con opciones avanzadas de filtrado y entrega.

data collection

Recogida de datos

Captura continuamente datos de la web pública en tiempo real, proporcionando resultados tan recientes como "ahora".

data volume

Volumen de datos

17,5 PB recopilados en 8 meses, que abarcan 118.000 millones de páginas con ~1 PB y 2.000 millones de URL únicas añadidas por semana.

delivery

Filtrado y entrega

Plataforma completa de descubrimiento y entrega: filtrado por categoría, dominio, idioma, fecha, etc. Entrega a través de Amazon S3 o webhook.
coverage

Cobertura y relevancia

Archive API se centra en datos de sitios web relevantes y de gran valor basados en necesidades empresariales reales de scraping.

Archivo API Playground

Búsqueda de archivo web de demostración
Vea cómo funciona nuestra API de archivo web con dominios de ejemplo
Dominios de demostración
example.com
Rango de tiempo
Edad máxima: 1 día
Resultados del Archivo
Los resultados de su archivo aparecerán aquí
Haz clic en "Mostrar Datos del Archivo de Demostración" para ver un ejemplo de salida o configurar filtros para buscar
            
          
Ejemplos de Código
                
              

¿Listo para integrar la API de archivo web?

Comienza con nuestra poderosa API de archivo web. Accede a datos históricos de la web con nuestra infraestructura escalable.

Obtenga una porción de la Web con Archive API

Recupere datos de un archivo web a escala de petabytes con miles de millones de páginas HTML. Descubra URL de vídeos e imágenes, textos en más de 100 idiomas o SERPs históricas.

structured

Estructurado y limpio

Datos preprocesados con esquemas coherentes, perfectos para el entrenamiento y la inferencia de modelos de IA.

code examples

Ejemplos de códigos

Fragmentos de Python, Node.js, cURL, PHP, Go, Java y Ruby listos para usar para integrarlos fácilmente en los flujos de trabajo de IA.

documentation

Documentación

Guías y cuadernos completos para ChatGPT, Claude y otras integraciones de LLM.

                              # Para iniciar una búsqueda en nuestro Archivo, utilice el siguiente punto final /search. Punto final: POST api.brightdata.com/webarchive/search

curl -X POST https://api.brightdata.com/webarchive/search 
  -H "Autorización: Bearer $API_KEY" 
  -H "Content-Type: application/json 
  --data '{"filters": {"max_age": "1d", "domain_whitelist": ["ejemplo.com"]}}''
                              
                            
                              # Comprobar el estado de una consulta concreta realizada. Punto final: GET api.brightdata.com/webarchive/search/

curl https://api.brightdata.com/webarchive/search/$SEARCH_ID 
  -H "Autorización: Portador $API_KEY"
                              
                            
                              # Compruebe el estado de todas las búsquedas en curso. Punto final: GET api.brightdata.com/webarchive/searches

curl https://api.brightdata.com/webarchive/searches 
  -H "Authorization: Portador $API_KEY"
                              
                            

Casos de uso de la API de archivo

Rastree los cambios de contenido y analice las tendencias a través de miles de millones de instantáneas web históricas. Acceda a 17,5 PB de datos almacenados en caché de 40 millones de dominios para realizar estudios longitudinales, análisis de la competencia e inteligencia de mercado sin necesidad de volver a rastrearlos.
Hable con un experto
deep research
Cree índices de búsqueda exhaustivos de forma instantánea con contenido previamente extraído y renderizado en JS de millones de dominios. Filtre por categoría, idioma y fecha para crear índices específicos y reducir los costes de infraestructura.
Hable con un experto
Entrene modelos de IA con 17,5 PB de datos web limpios. Obtenga contenidos frescos y de alta calidad de diversas fuentes, con 1 PB añadido semanalmente, entregados en formatos optimizados para aplicaciones de aprendizaje automático.
Hable con un experto
data_enrichment_for_ai_models

Recuperación fluida de datos de miles de millones de dominios

Descubra y recupere fácilmente URL de vídeo, imágenes, audio y mucho más.

FLEXIBLE

Infraestructura de nivel empresarial

La plataforma de Bright Data da servicio a más de 20,000+ empresas de todo el mundo, ofreciendo tranquilidad con un tiempo de actividad del 99,99%, acceso a 150M+ IPs de usuarios reales que cubren 195 países.

ESCALABLE

Descubrimiento, recogida y tratamiento avanzados de datos

Obtenga el máximo control y flexibilidad sin necesidad de mantener una infraestructura de proxy y desbloqueo. Raspe datos fácilmente desde cualquier geolocalización evitando CAPTCHAs y bloqueos.

ESTABLE

Adaptado a su flujo de trabajo

Obtenga datos estructurados y validados con opciones personalizadas de entrega e integración, incluidos informes a medida, paneles de control y análisis, a través de rastreos históricos y múltiples sitios web.

compliance
CUMPLE

Cumplimiento líder del sector

Nuestras prácticas de privacidad cumplen las leyes de protección de datos, incluido el marco normativo de protección de datos de la UE, el GDPR y la CCPA, respetando las solicitudes para ejercer los derechos de privacidad y mucho más.

Empiece a recopilar datos web. Sin esfuerzo.

Archivo API Preguntas frecuentes

Archive API es un repositorio masivo en caché de Bright Data, en continua expansión, diseñado para capturar y entregar datos web públicos a escala.

Proporciona páginas web completas y metadatos, por lo que resulta ideal para la formación en IA, el aprendizaje automático y el análisis de datos a gran escala.

A diferencia de los rastreos web tradicionales, Archive API prioriza la relevancia, la frescura y la facilidad de uso, dándole acceso a las partes más importantes de Internet a medida que se rastrean diariamente.

La API de archivos de Bright Data ya ha recopilado 17,5 PB de datos, que abarcan 28.000 millones de URL únicas de 40 millones de dominios, sólo en los 8 primeros meses de su lanzamiento.

Seguimos añadiendo ~1 PB de datos nuevos cada semana, junto con ~2.000 millones de URL únicas, lo que convierte a Archive en el mayor repositorio de datos web actualizados disponible, perfecto para aplicaciones basadas en IA y datos.

Puede empezar a acceder a los datos inmediatamente a través de nuestra API de archivo. La API le permite buscar, recuperar y filtrar instantáneas de datos del Archivo de forma fluida y eficaz.

Datos de los últimos 3 días: La entrega tardará desde unos minutos hasta unas horas (dependiendo del tamaño de la instantánea).

Datos de más de 3 días: El procesamiento y la entrega tardarán desde unas horas hasta 3 días (en función del tamaño de la instantánea).

Archive ofrece dos opciones de entrega para garantizar una integración perfecta en sus flujos de trabajo actuales:

Bucket de Amazon S3: Reciba su instantánea de datos directamente en su bucket de S3.

Webhook: Recuperado a través de webhook para la integración en tiempo real en sus sistemas.

Por supuesto. Archive API permite filtrar por categoría, dominios, fecha, idiomas y país antes de recuperar los datos, lo que garantiza que sólo obtendrá lo que necesita.