AI

Rastreador de visibilidad de IA de código abierto, y cómo los Scrapers LLM de Bright Data lo hicieron posible

Descubre cómo el GEO/AEO Tracker, una herramienta gratuita y de código abierto, utiliza los Scrapers LLM de Bright Data para supervisar la visibilidad de la marca en seis plataformas de IA.
15 min de lectura
Open-Source AI Visibility Tracker

Los modelos de IA ahora responden a las preguntas que tus clientes solían hacer en Google. Si tu marca no aparece en esas respuestas, eres casi invisible y probablemente ni siquiera lo sabes. He creado una herramienta gratuita y de código abierto para hacer un seguimiento exacto de eso. Esto es lo que he aprendido y por qué las API de Scraper de Bright Data eran la única infraestructura que podía hacer que funcionara.

Resumen rápido:

  • El GEO/AEO Tracker es un panel de control de visibilidad de IA gratuito y de código abierto que realiza un seguimiento de 6 modelos de IA simultáneamente.
  • Utiliza los LLM Scrapers de Bright Data para consultar ChatGPT, Gemini, Perplexity, Grok, Copilot y el modo IA de Google.
  • Bright Data ofrece resultados estructurados (citas, fuentes, texto de respuesta) por modelo, a través de un único patrón de API.
  • Las herramientas de pago para empresas cobran entre 200 y 600 dólares al mes y bloquean tus datos; esta solución cuesta fracciones de céntimo por consulta y todos los datos permanecen locales.
  • El SRO Pipeline utiliza la API SERP, Web Unlocker y los LLM Scrapers de Bright Data en un flujo de trabajo integral.
  • Todos los datos permanecen en su propio entorno. Sin dependencia de un proveedor, sin bases de datos externas.

El problema GEO que nadie ha resuelto del todo todavía

ChatGPT ha superado los 900 millones de usuarios activos semanales a principios de 2026. Las descripciones generales de IA de Google aparecen ahora en aproximadamente el 16 % de todas las búsquedas. Y el tráfico procedente de motores de búsqueda con IA se convierte 23 veces mejor que los visitantes orgánicos tradicionales. Ahrefs lo confirmó a partir de sus propios datos, al descubrir que el 0,5 % de su tráfico procedente de fuentes de IA generó el 12,1 % de todos los registros.

McKinsey prevé que, para 2028, 750 000 millones de dólares de ingresos en EE. UU. pasarán por búsquedas impulsadas por IA. No se trata de una previsión sobre un estado futuro. Ya está ocurriendo, consulta a consulta, cada vez que alguien pregunta a ChatGPT «¿qué CRM debería usar?» o a Perplexity «¿quién hace el mejor software de gestión de proyectos?».

No se puede optimizar lo que no se puede medir. Y medir la visibilidad de la IA ha sido demasiado caro, demasiado limitado, o ambas cosas.

Lo que he creado: el GEO/AEO Tracker en 60 segundos

El GEO/AEO Tracker es un panel de control de inteligencia de visibilidad de la IA de código abierto y con prioridad local. Puedes probar la demo en vivo ahora mismo sin necesidad de una clave API.

Realiza un seguimiento de tu marca en ChatGPT, Perplexity, Gemini, Grok, Google AI Mode y Microsoft Copilot de forma simultánea y en paralelo, con todos los datos almacenados localmente en tu navegador a través de IndexedDB. Sin bases de datos externas. Sin dependencia de un proveedor.

13 funciones, 6 modelos de IA, cero dependencia de un proveedor

Creé esto porque me encontraba constantemente con el mismo problema: todas las herramientas que evaluaba o bien costaban demasiado, me ataban a su ecosistema o no cubrían suficientes modelos. Así que creé lo que quería usar.

Las funciones más importantes para el seguimiento de marcas en el mundo real:

Prompt Hub ejecuta cualquier prompt en los 6 modelos a la vez. Para un equipo de marketing de producto que realiza un seguimiento de consultas de la competencia, eso supone la diferencia entre ejecutar 6 experimentos separados y ejecutar uno solo. Puedes gestionar una biblioteca completa de prompts, utilizar la inyección {brand} para la sustitución dinámica y activar ejecuciones por lotes, todo en paralelo.

Visibility Analytics te ofrece una puntuación de 0 a 100 basada en la tasa de menciones de la marca, la posición en las respuestas, la frecuencia de citas y el sentimiento a lo largo del tiempo. Este es el KPI que los directores de marketing pueden comunicar a sus superiores sin necesidad de una explicación de 20 diapositivas. También se puede exportar como CSV.

Oportunidades de cita es la función de la que me siento más orgulloso. Muestra en qué URL de la competencia se te cita y en cuáles no apareces. Se trata de una fuente directa de inteligencia sobre brechas de contenido y creación de enlaces, que se entrega automáticamente.

El análisis SRO (más información a continuación) es un proceso de seis etapas que puntúa de 0 a 100 el grado de optimización de una página específica para los resultados de búsqueda de IA, con recomendaciones priorizadas y aplicables. Utiliza múltiples productos de Bright Data en un único flujo de trabajo.

Las alertas de desviación se activan automáticamente cuando tu puntuación de visibilidad cambia de forma significativa. Un cambio en la reputación de la marca en las respuestas de IA puede agravarse rápidamente. Saberlo en cuestión de días es muy diferente a enterarte en tu revisión mensual.

Por qué Bright Data era la única base viable

Esta es la parte de la historia de desarrollo que la mayoría de la gente se salta, pero es la razón por la que la herramienta funciona con calidad de producción en lugar de fallar cada semana.

El reto del scraping del que nadie habla

ChatGPT, Perplexity, Gemini, Grok, Google IA Mode y Copilot son todos:

  • Totalmente renderizados en JavaScript. Una simple solicitud HTTP no devuelve nada útil.
  • Bloquean agresivamente a los bots. Detectan patrones de tráfico automatizados y los rechazan. Las técnicas anti-scraping más comunes —que incluyen huellas digitales del navegador, retos CAPTCHA y análisis de comportamiento— se aplican simultáneamente en todas estas plataformas.
  • Estructuralmente diferentes entre sí. Cada plataforma devuelve los datos en un formato distinto. Perplexity utiliza Markdown con fuentes en línea. Gemini devuelve las citas como una matriz estructurada independiente. Grok tiene un campo response_raw junto con answer_text_markdown.
  • Dependencia de la geolocalización. La misma consulta puede devolver respuestas y citas diferentes dependiendo del país desde el que parezca provenir la solicitud.

Crear y mantener Scrapers para las seis plataformas desde cero requeriría una infraestructura de Proxies residenciales, Resolución de CAPTCHA, gestión de sesiones, normalización de respuestas entre modelos, sondeo de respuestas asíncronas y mantenimiento continuo cada vez que una plataforma actualiza su estructura. Son meses de trabajo de ingeniería antes de escribir una sola línea de lógica de seguimiento.

Bright Data reduce todo eso a una sola llamada a la API por modelo.

Seis Scrapers, una clave API: cómo funciona en el código

La integración principal en brightdata-scraper.ts sigue un patrón sencillo y repetible en los seis proveedores:

// Paso 1: POST al punto final del Conjunto de datos de Bright Data
const scrapeResponse = await fetch(
  `https://api.brightdata.com/datasets/v3/scrape?dataset_id=${datasetId}&format=json`,
  {
    method: "POST",
    headers: { Authorization: `Bearer ${BRIGHT_DATA_KEY}`, "Content-Type": "application/json" },
    body: JSON.stringify({
      input: [{ url: providerBaseUrl[provider], prompt: request.prompt, index: 1 }]
    }),
  }
);

// Paso 2: Gestionar la respuesta asíncrona — comprobar si la instantánea está lista
if (scrapeResponse.status === 202) {
  const { snapshot_id } = await scrapeResponse.json();
  await monitorUntilReady(snapshot_id); // comprueba /progress/{id} cada 2 segundos
  payload = await downloadSnapshot(snapshot_id); // GET /snapshot/{id}?format=json
}

// Paso 3: Normalizar el resultado
const answer = normalizeAnswer(record); // gestiona los 6 formatos de modelo
const sources = extractSourcesFromAnswer(answer); // fusiona texto + citas estructuradas

Todos los modelos utilizan este mismo patrón. Lo único que cambia es el dataset_id, una variable de entorno por proveedor: BRIGHT_DATA_DATASET_CHATGPT, BRIGHT_DATA_DATASET_PERPLEXITY, y así sucesivamente.

Esa es la arquitectura: un patrón de integración, seis modelos, salida estructurada coherente en todo momento.

Cómo es realmente la salida estructurada

Cada Scraper de Bright Data devuelve campos específicos del modelo. La función normalizeAnswer() gestiona las diferencias de formato entre modelos para que el resto de la aplicación vea una interfaz coherente:

Modelo Campos clave devueltos
ChatGPT answer_text, links_attached, citations, recommendations, country
Perplexity texto_respuesta_markdown, fuentes, fuente_html, son_datos_de_compras
Gemini texto_de_respuesta, citas, enlaces_adjuntos, índice, país
Grok texto_respuesta, texto_respuesta_markdown, citas, respuesta_sin_formato
Modo IA de Google texto_de_respuesta, citas, enlaces_adjuntos, índice, país
Copilot texto_respuesta_markdown, fuentes, sección_respuesta_html, índice

La capa de normalización comprueba primero answer_text, recurre a answer_text_markdown, luego a response_raw, y finalmente realiza una extracción recursiva profunda del registro sin procesar. Bright Data se encarga de la complejidad específica de cada plataforma; la aplicación se encarga de la normalización multiplataforma. Separación clara de responsabilidades.

El pipeline SRO: el stack completo de Bright Data en una sola función

El análisis SRO es la función técnicamente más compleja del rastreador, y también es la demostración más clara de lo que la infraestructura de Bright Data permite a gran escala.

La idea: puntuar en qué medida una página específica está optimizada para los resultados de búsqueda de IA, de 0 a 100, con recomendaciones concretas. El proceso de seis etapas que hay detrás de esa puntuación:

Etapa 1: Gemini Grounding. Utiliza la API de Google Gemini para comprender cómo perciben los sistemas de IA la página, incluyendo su tema, señales de autoridad y estructura de contenido.

Etapa 2: Citaciones multiplataforma. Llama a los 6 Scrapers LLM de Bright Data en paralelo mediante scrapeAllPlatforms() para comprobar si la URL o el dominio de destino se cita cuando se consulta la palabra clave relevante en ChatGPT, Perplexity, Gemini, Grok, Google IA Mode y Copilot.

Etapa 3: Análisis SERP. Utiliza la API SERP de Bright Data para extraer datos de posicionamiento orgánico de la palabra clave. Si la página ocupa el primer puesto en los resultados orgánicos pero no aparece citada en ninguna respuesta de IA, se trata de una brecha GEO que merece la pena destacar.

Fase 4: Scraping de la página. Utiliza Web Unlocker de Bright Data para obtener el contenido real de la página y analizar su estructura, profundidad, densidad de BLUF, jerarquía de encabezados y marcado de esquema. Sin muro de pago, sin bloqueo de bots.

Fase 5: Contexto del sitio. Vuelve a utilizar Web Unlocker de Bright Data para recuperar la página de inicio y extraer las señales de autoridad de marca que los sistemas de IA utilizan a la hora de decidir si citar una fuente.

Etapa 6: Análisis LLM. Sintetiza todo lo anterior en una puntuación SRO final, además de una lista de recomendaciones priorizadas: qué aspectos corregir primero, qué lagunas de contenido existen y en qué aspectos los competidores te superan en cuanto a citas de IA.

Una función. Seis integraciones de productos de Bright Data. El resultado es un flujo de trabajo de auditoría que a un equipo empresarial le llevaría meses crear desde cero, y ese es el objetivo.

Casos de uso empresarial: qué están haciendo realmente las empresas con esto

El rastreador es de código abierto, pero la infraestructura sobre la que se basa (las API LLM Scraper de Bright Data) es la que se adapta a las cargas de trabajo reales de las empresas. Así es como funciona en la práctica.

Monitorización de la reputación de marca a gran escala

El director de marketing de una empresa de SaaS de tamaño medio necesita saber: cuando un usuario le pregunta a ChatGPT «¿en qué [categoría de producto] debo confiar?», ¿qué responde? ¿Es precisa la respuesta? ¿Es el sentimiento positivo? ¿Menciona siquiera la marca?

Sin una herramienta de seguimiento, no te enteras hasta tres meses después, cuando un cliente potencial te cuenta que le preguntó a una IA y esta le recomendó a un competidor. Con el rastreador, ejecutas semanalmente un lote de consultas sensibles a la reputación, se activan alertas de desviación cuando cambia el sentimiento y la pestaña «Oportunidades de citas» muestra exactamente qué contenido producir o qué backlinks conseguir para cambiar la respuesta de la IA. Para los equipos que quieran profundizar, hay una guía detallada sobre cómo crear un flujo de trabajo automatizado de monitorización de la reputación de marca utilizando el SDK de Bright Data.

Inteligencia competitiva para equipos de ventas

Los equipos de habilitación de ventas y marketing de productos se enfrentan a un problema específico: los competidores aparecen en las respuestas de la IA para consultas que deberían pertenecerles a ellos. No saben qué consultas, qué modelos, por qué ni qué hacer al respecto.

La pestaña «Competitor Battlecards» genera comparaciones lado a lado impulsadas por IA entre tu marca y cualquier competidor. El análisis de la brecha de citas muestra exactamente en qué URL se cita al competidor y en cuáles no a ti. Ese era el tipo de inteligencia por la que las agencias cobraban 50 000 $ al año.

Estrategia GEO para equipos multimarca o agencias

Una agencia que gestiona 12 marcas no puede permitirse pagar 500 $ al mes por marca para el seguimiento de visibilidad mediante IA. Las cuentas no cuadran.

La compatibilidad con múltiples espacios de trabajo del rastreador y el modelo BYOK (Bring Your Own Key) significan que solo pagas por el uso de la API de Bright Data. A 1,50 $ por cada 1000 registros con pago por uso, ejecutar un lote de seguimiento semanal completo con 10 consultas y 6 modelos cuesta fracciones de dólar por marca. Diez marcas rastreadas por menos del coste de una licencia de SaaS.

Auditorías GEO técnicas para clientes de SEO

Cuando los clientes de SEO preguntan «¿estamos optimizados geográficamente?», la respuesta honesta, sin herramientas, es imprecisa. El análisis SRO cambia eso. Ofrece una puntuación de 0 a 100 por página con una lista de prioridades concreta: corregir el marcado de esquemas, mejorar la densidad de BLUF en el párrafo inicial, obtener citas de estos tres dominios. Es la diferencia entre una auditoría que dice «la optimización con IA es importante» y otra que dice «estas son las cinco cosas que hay que hacer esta semana». Si quieres ver cómo se puede construir de principio a fin este tipo de flujo de trabajo de optimización GEO con múltiples agentes, la guía de optimización de contenido GEO y SEO con CrewAI te lo explica con todo detalle.

Requisitos de soberanía de datos

Los equipos de compras y jurídicos de las empresas tienen una preocupación legítima: no pueden enviar datos de seguimiento de marca a los servidores de un proveedor de SaaS externo. Esto impide la adopción de casi todas las herramientas GEO comerciales a nivel empresarial.

La arquitectura «local-first» del rastreador (IndexedDB + localStorage) significa que Bright Data entrega datos estructurados a través de la API, y la empresa decide dónde van. La propia Bright Data cumple con SOC 2 Tipo II, ISO 27001, el RGPD y la CCPA, por lo que supera las revisiones de seguridad de las empresas. El flujo de datos es limpio: entrada de respuesta estructurada, almacenamiento local, sin intermediarios.

Qué significa esto si quieres crear algo similar

El rastreador es una de las aplicaciones de las API LLM Scraper de Bright Data. La infraestructura en la que se ejecuta es de uso general.

Si estás creando un panel de control de IA, una herramienta de inteligencia de marca, un producto de investigación competitiva o cualquier aplicación que necesite consultar modelos de IA a gran escala y obtener datos estructurados, los componentes básicos son los mismos. Para conocer el contexto de lo que hay disponible para estos casos de uso, la comparación de las principales API SERP y de búsqueda web ofrece una buena visión general. La red de Bright Data, con más de 150 millones de IPs residenciales en 195 países, garantiza que las plataformas de IA vean tráfico de usuarios reales. El tiempo de actividad del 99,99 % garantiza que tus procesos automatizados no fallen silenciosamente un martes por la mañana. La gestión de solicitudes masivas de hasta 5000 URL te permite ejecutar un seguimiento por lotes a escala empresarial en una sola operación. La entrega de resultados a S3, GCS, Snowflake, Azure y SFTP significa que los datos se descargan directamente en cualquier pila que ya tengas.

Si también estás considerando los mejores marcos de agentes de IA para orquestar estos Scrapers en un proceso totalmente autónomo, ese es el siguiente paso lógico. Todos los principales marcos se integran directamente con Bright Data.

La cuestión no es si se debe rastrear la visibilidad de la IA. Es cuán rápido puedes poner en marcha la infraestructura para actuar en función de lo que encuentres.

Empieza a utilizar los Scrapers LLM de Bright Data

Si quieres ejecutar tu propia instancia del GEO/AEO Tracker, clona el repositorio y añade tu clave API de Bright Data. Estarás en funcionamiento en menos de 10 minutos:

git clone https://github.com/danishashko/geo-aeo-tracker.git
cd geo-aeo-tracker && npm install
# Añade BRIGHT_DATA_KEY + 6 ID de Conjuntos de datos a .env
npm run dev

Los seis ID de conjuntos de datos de los scrapers de Bright Data (para la API de ChatGPT Scraper, Perplexity Scraper, Gemini Scraper, Grok Scraper, Google IA Mode Scraper y Copilot Scraper) están disponibles directamente en el Bright Data Scrapers Marketplace una vez que tengas una cuenta.

Si quieres crear algo personalizado a escala empresarial, los LLM Scrapers son la capa de infraestructura. Ambas vías comienzan en el mismo lugar: una prueba gratuita de Bright Data.

Consulta el repositorio de código abierto en GitHub