Evaluations & Observability - Measure What Matters

Evaluaciones y observabilidad: mida lo que importa

Hemos llegado al último día de la Semana de Lanzamiento. Durante los últimos cuatro días, le hemos proporcionado las herramientas para crear agentes de IA de nivel de producción:

Día 1: Grupos de herramientas para eliminar la contaminación del contexto
Día 2: Herramientas personalizadas para una precisión quirúrgica
Día 3: Optimización de tokens para maximizar la eficiencia
Día 4: Integraciones empresariales para romper los silos

Hoy abordamos una de las principales peticiones que nos han hecho llegar nuestros clientes: ¿cómo saber si su agente funciona como se espera?

Presentamos: Marco de evaluaciones y panel de observabilidad.

El reto: visibilidad del comportamiento del agente

Ha creado un agente de comercio electrónico. Lo ha adaptado a las herramientas adecuadas. Ha optimizado el uso de tokens. Ahora necesita visibilidad en la producción:

¿Qué herramientas se están utilizando realmente?
¿Se están utilizando correctamente las herramientas?
¿Dónde fallan los agentes?
¿Cuál es su uso y coste reales?
¿Cómo afectan las nuevas configuraciones de herramientas a las tasas de éxito?

Sin visibilidad, estás volando a ciegas. No se puede optimizar lo que no se puede medir.

Esto es especialmente importante cuando se trabaja con grupos de herramientas. Al cambiar de grupos=comercio electrónico a una selección de herramientas personalizada, ¿ha interrumpido accidentalmente un flujo de trabajo crítico? No lo sabrá hasta que un cliente se queje.

La solución: visibilidad en dos capas

Hemos creado una pila de visibilidad completa con dos sistemas complementarios:

1. Marco de evaluaciones MCP (desarrollo y pruebas)

Marco de pruebas automatizadas impulsado por mcpjam que valida el comportamiento de los agentes antes de la producción

2. Panel de observabilidad (supervisión de la producción)

Panel de control de análisis de uso en tiempo real en el panel de control de Bright Data que realiza un seguimiento de cada llamada a la API en producción.

Veamos cada capa en detalle.

Capa 1: Marco de evaluación MCP

¿Qué es mcpjam?

mcpjam es la CLI de evaluación oficial para servidores Model Context Protocol. Piensa en ello como «pruebas de integración para agentes de IA».

Usted escribe casos de prueba como consultas en lenguaje natural, especifica qué herramientas deben llamarse y mcpjam ejecuta su agente a través del flujo de trabajo automáticamente.

Cómo lo utilizamos

Hemos creado un conjunto de evaluaciones completo para cada grupo de herramientas que lanzamos el primer día. Cuando configura una nueva selección de herramientas, puede ejecutar estas evaluaciones para verificar que todo funciona antes de la implementación.

Estructura del proyecto

mcp-evals/
├── server-configs/           # Configuraciones de conexión al servidor por grupo de herramientas
│   ├── server-config.ecommerce.json
│   ├── server-config.social.json
│   ├── server-config.business.json
│   ├── server-config.browser.json
│   └── ...
├── tool-groups.json/         # Casos de prueba por grupo de herramientas
│   ├── tool-groups.ecommerce.json
│   ├── tool-groups.social.json
│   ├── tool-groups.business.json
│   ├── tool-groups.browser.json
│   └── ...
└── llms.json                 # Claves API del proveedor LLM

Cada grupo de herramientas tiene su propio conjunto de pruebas con consultas reales que los agentes deben ser capaces de gestionar.

Ejemplo: Evaluación de comercio electrónico

De mcp-evals/tool-groups.json/tool-groups.ecommerce.json:

{
  "title": "Prueba de comercio electrónico: búsqueda de productos en Amazon",
  "query": "Busca auriculares inalámbricos en Amazon y muéstrame los productos más vendidos con reseñas",
  "runs": 1,
  "model": "gpt-5.1-2025-11-13",
  "proveedor": "openai",
  "llamadas a herramientas esperadas": ["web_data_amazon_product_search"],
  "servidores seleccionados": ["ecommerce-server"],
  «advancedConfig»: {
    «instructions»: «Eres un asistente de compras que ayuda a los usuarios a encontrar productos en Amazon»,
    «temperature»: 0.1,
    «maxSteps»: 5,
    «toolChoice»: «required»
  }
}

Esta prueba valida que:

El agente interpreta correctamente la consulta del usuario.
Llama a la herramienta correcta (web_data_amazon_product_search)
Pasa los parámetros adecuados (palabra clave del producto, URL de Amazon).
Se completa dentro del tiempo de espera configurado
Devuelve una respuesta coherente

Ejecución de evaluaciones: inicio rápido

Instalar mcpjam:

npm install -g @mcpjam/cli

Ejecutar pruebas de grupos de herramientas de comercio electrónico:

mcpjam evals run 
  -t mcp-evals/tool-groups.json/tool-groups.ecommerce.json 
  -e mcp-evals/server-configs/server-config.ecommerce.json 
  -l mcp-evals/llms.json

Resultado esperado:

Ejecutando pruebas.
Conectado a 1 servidor: ecommerce-server.
Se han encontrado 13 herramientas en total.
Ejecutando 2 pruebas.

Prueba 1: Prueba de comercio electrónico: búsqueda de productos en Amazon.
Usando openai:gpt-5.1-2025-11-13.

Ejecución 1/1.
Usuario: busca auriculares inalámbricos en Amazon y muéstrame los productos más vendidos con reseñas.
[tool-call] web_data_amazon_product_search
{
  "keyword": "auriculares inalámbricos",
  "url": "https://www.amazon.com"
}
[tool-result] web_data_amazon_product_search
{
  "content": [...]
}
asistente: Estos son algunos de los mejores auriculares inalámbricos disponibles actualmente en Amazon...

Esperado: [web_data_amazon_product_search]
Real:   [web_data_amazon_product_search]
APROBADO (23,8 s)
Tokens • entrada 20923 • salida 1363 • total 22286

Qué se prueba

Hemos creado conjuntos de evaluación para los 8 grupos de herramientas desde el primer día:

Grupo de herramientas	Cobertura de la prueba	Ejemplos de consultas
Comercio electrónico	Búsquedas de productos en Amazon, Walmart y Best Buy	«Comparar precios del iPhone 15 en diferentes tiendas»
redes sociales	Contenido de TikTok, publicaciones de Instagram, tendencias de Twitter	«Encuentra vídeos de TikTok sobre IA que sean tendencia»
Negocios	Perfiles de LinkedIn, datos de financiación de Crunchbase, ubicaciones de Google Maps	«Buscar el perfil de LinkedIn del director ejecutivo de Microsoft»
Investigación	Repositorios de GitHub, noticias de Reuters, fuentes académicas	«Busca repositorios Python para Scraping web con más de 1000 estrellas»
Finanzas	Datos bursátiles, tendencias del mercado, noticias financieras	«Obtener el último precio de las acciones de NVIDIA»
tiendas de aplicaciones	App Store de iOS, reseñas y valoraciones de Google Play	«Encuentre las aplicaciones de meditación mejor valoradas en iOS»
navegador	Navegador de scraping de flujos de trabajo de automatización del navegador	«Navega a Amazon y añade un artículo al carrito»
advanced_scraping	Operaciones por lotes, scraping personalizado	«Extraiga datos de productos de un sitio web personalizado»

Cada conjunto de pruebas contiene entre 2 y 5 casos de prueba básicos que cubren los flujos de trabajo más comunes de los agentes para ese dominio.

Por qué es importante

Las evaluaciones le ofrecen:

Pruebas de regresión: ejecute evaluaciones después de cada cambio de configuración para asegurarse de que no ha interrumpido los flujos de trabajo existentes.
Comparativa de rendimiento: realice un seguimiento del uso de tokens y la latencia en diferentes modelos LLM.
Validación de herramientas: verifique que la lógica de selección de herramientas funciona correctamente.
Documentación: los casos de prueba sirven como ejemplos ejecutables de lo que puede hacer su agente.

Antes de los grupos de herramientas de Day 1, no teníamos una forma sistemática de comprobar si el cambio de groups=ecommerce a groups=ecommerce,social afectaría al comportamiento del agente. Ahora sí la tenemos.

Capa 2: Panel de observabilidad

Supervisión de la producción en tiempo real

Mientras que las evaluaciones se encargan de las pruebas previas a la implementación, el panel de observabilidad le ofrece visibilidad en tiempo real del uso en producción.

Hemos integrado un nuevo panel de uso de MCP en el panel de control de Bright Data que realiza un seguimiento de todas las llamadas a la API realizadas a través de su servidor MCP.

Lo que ves

El panel muestra una tabla de uso completa con:

Fecha	Herramienta	Nombre del cliente	URL	Estado
26/11/2025 14:32:15	web_data_amazon_product	my-ecommerce-agent	https://amazon.com/…	Éxito
26/11/2025 14:31:52	motor_de_búsqueda	my-research-bot	N/A	Éxito
26/11/2025 14:30:18	enlace_de_datos_web_perfil_de_persona_en_linkedin	agente-de-generación-de-clientes-potenciales	https://linkedin.com/in/…	Éxito
26/11/2025 14:29:03	navegación_del_navegador_scraping	agente de automatización	https://example.com	Fallido

Métricas clave

1. Desglose del uso de herramientas

Vea qué herramientas se utilizan con más frecuencia:

web_data_amazon_product:        1243 llamadas
search_engine:                    892 llamadas
web_data_linkedin_person_profile: 634 llamadas
scrape_as_markdown:              421 llamadas

Esto le indica qué conjuntos de datos son más valiosos para sus agentes. Si está pagando por grupos de herramientas que no utiliza, lo verá aquí.

2. Identificación del cliente

Cada instancia de agente se puede etiquetar con un nombre de cliente (a través del parámetro client_name en la URL de conexión):

npx -y @brightdata/mcp

El panel de control agrupa el uso por cliente, por lo que puede realizar un seguimiento de los costes por agente/flujo de trabajo.

3. Índices de éxito frente a índices de fracaso

Supervise la fiabilidad de los agentes:

Total de solicitudes:     3190
Exitosas:         3102 (97,2 %)
Fallidas:                88 (2,8 %)

Haga clic en las solicitudes fallidas para ver los detalles del error y depurar los problemas.

4. Seguimiento de URL

En el caso de las herramientas de conjuntos de datos, el panel muestra a qué URL o recursos se ha accedido. Esto le ayuda a:

Identificar problemas de limitación de velocidad (demasiadas solicitudes al mismo dominio).
Realizar un seguimiento de los productos, perfiles o páginas específicos que se están rastreando.
Auditar el cumplimiento (asegurarse de que los agentes no acceden a sitios restringidos).

Cómo acceder

Inicie sesión en el panel de control de Bright Data
Vaya a Uso de MCP (nueva sección en la barra lateral).
Vea los datos de uso en tiempo real de todas sus conexiones MCP

Filtros:

Intervalo de fechas (últimas 24 horas, 7 días, 30 días, personalizado)
Nombre de la herramienta (filtrar por herramientas específicas)
Nombre del cliente (filtrar por instancia de agente)
Estado (éxito/fracaso)

Exportación:

Descargar datos de uso como CSV para un análisis más profundo o la integración de herramientas de BI.

Flujo de trabajo combinado: Desarrollo → Producción

Así es como funcionan los dos sistemas juntos:

Fase 1: Desarrollo (previo a la implementación)

Configure los grupos de herramientas utilizando la funciónfeaturenpx -y @brightdata/mcp del día 1.
Ejecute evaluaciones para validarla selección de herramientasmcpjam evals run -t mcp-evals/tool-groups.json/tool-groups.ecommerce.json -e mcp-evals/server-configs/server-config.ecommerce.json -l mcp-evals/llms.json
Revisar los resultados: Asegurarse de que todas las pruebas se superan
- El uso de tokens está dentro del presupuesto
- Se están utilizando las herramientas correctas
- Las respuestas son precisas
Iterar: si las pruebas fallan, ajustar la selección de herramientas o las indicaciones del sistema

Fase 2: Producción (posterior a la implementación)

Implementar el agente con el nombre del clienteetiquetado npx -y @brightdata/mcp
Panel de control: compruebe el uso en tiempo real
- ¿Las tasas de éxito coinciden con los resultados de la evaluación?
- ¿Se están llamando herramientas inesperadas?
- ¿Hay algún problema de limitación de velocidad o autenticación?
Analizar tendencias: con el tiempo, busque:
- Picos de uso (¿es necesario escalar?)
- Cambios en los patrones de fallo (¿degradación de la herramienta?)
- Anomalías en los costes (optimizar el uso de tokens)
Optimizar: Utilice la información del panel de control para refinar la selección de herramientas
- Elimine las herramientas que no se utilizan (reduzca los costes de tokens)
- Añadir herramientas que faltan (mejorar las tasas de éxito)
- Ajustar los límites de velocidad (evitar la limitación)
Volver a ejecutar evaluaciones: después de cualquier cambio de configuración, vuelva a ejecutar las evaluaciones para asegurarse de que no haya regresiones

Estadísticas de rendimiento: resumen de la semana de lanzamiento

Recapitulemos. Este es el impacto acumulado de los 5 días:

Día 1: Grupos de herramientas

Impacto: reducción del 60 % en los tokens de solicitud del sistema.
Ejemplo: Conjunto completo (más de 200 herramientas) → Grupo único (25 herramientas)
Ahorro de tokens: ~8000 tokens por solicitud (solicitud del sistema)

Día 2: Herramientas personalizadas

Impacto: reducción del 85 % en comparación con el conjunto completo al seleccionar 4 herramientas específicas
Ejemplo: paquete completo (más de 200 herramientas) → personalizado (4 herramientas)
Ahorro de tokens: ~9500 tokens por solicitud (solicitud del sistema)

Día 3: Optimización de tokens

Impacto: reducción del 30-60 % en los tokens de respuesta de las herramientas
Ejemplo: Herramientas de Scraping web + Conjuntos de datos en un único flujo de trabajo
Ahorro de tokens: ~10 250 tokens por solicitud (resultados de la herramienta)

Efecto combinado: flujo de trabajo del agente de comercio electrónico

Escenario: «Encuentra los 5 mejores auriculares de Amazon por menos de 100 $ y resume las reseñas».

Configuración	Solicitud del sistema	Resultados de la herramienta	Total de tokens	Coste por solicitud
Paquete completo (sin optimización)	15 000	22 500	37 500	0,45
+ Grupos de herramientas	6000	22 500	28 500	0,34
+ Herramientas personalizadas	2250	22 500	24 750	0,30
+ Optimización de tokens	2250	12 250	14 500	0,17

Reducción total: 61,3 % menos de tokens, 62,2 % menos de coste

Con 1000 solicitudes al día, eso supone un ahorro de 280 $ al día o 102 200 $ al año.

Día 4: Integraciones empresariales

Impacto: eliminación de la sobrecarga de ETL personalizado
Ahorro de tiempo: semanas de trabajo de ingeniería → minutos de configuración
Mantenimiento: cero (gestionado por Bright Data).

Día 5: Evaluaciones + Observabilidad

Impacto: control de calidad proactivo + visibilidad de la producción
Reducción de fallos: mejora del 10-15 % en las tasas de éxito (mediante la detección temprana de problemas).
Ahorro de costes: Detección de regresiones antes de la producción (ahorro de cientos de solicitudes fallidas)

Pruébelo: Empiece hoy mismo

Paso 1: Realice su primera evaluación

# Instalar mcpjam
npm install -g @mcpjam/cli

# Clonar el repositorio Web MCP
git clone https://github.com/brightdata/brightdata-mcp-sse.git
cd brightdata-mcp-sse

# Configurar sus claves API en mcp-evals/llms.json
# Configure su token de Bright Data en las configuraciones del servidor

# Ejecute evaluaciones de comercio electrónico
mcpjam evals run 
  -t mcp-evals/tool-groups.json/tool-groups.ecommerce.json 
  -e mcp-evals/server-configs/server-config.ecommerce.json 
  -l mcp-evals/llms.json

Paso 2: Acceda al panel de observabilidad

Regístrese en Bright Data
Vaya a Uso de MCP en el Panel de control
Implemente un agente y observe cómo aparecen los datos de uso en tiempo real

Paso 3: Repita

Utilice evaluaciones para probar configuraciones. Utilice el panel de control para supervisar la producción. Repita el proceso.

Recursos

Evaluaciones de MCP:

mcpjam GitHub: CLI de evaluación oficial
Protocolo de contexto del modelo: especificación oficial de MCP

Panel de observabilidad:

Panel de control de Bright Data: acceda a su panel de uso
Documentación de la API: referencia completa de la API

Servidor MCP web:

Repositorio GitHub: código del servidor de código abierto
Paquete NPM: instalación a través de npm

Resumen de la semana de lanzamiento:

Día 1: Grupos de herramientas— Eliminar la contaminación del contexto
Día 2: Herramientas personalizadas: selección quirúrgica de herramientas
Día 3: Optimización de tokens: maximizar la eficiencia
Día 4: Integraciones empresariales: romper los silos
Día 5: Evaluaciones y observabilidad: mida lo que importa (usted está aquí)

Semana de lanzamiento: unas últimas palabras

Cinco días. Cinco lanzamientos importantes. Una misión: preparar los agentes de IA para la producción.

Partimos de la idea de que la contaminación del contexto es el mayor obstáculo en los flujos de trabajo de los agentes. Le proporcionamos grupos de herramientas para delimitar su contexto.

Luego nos dimos cuenta de que ni siquiera los grupos son lo suficientemente precisos. Lanzamos herramientas personalizadas para lograr una precisión quirúrgica.

A continuación, abordamos el lado de la salida: respuestas con exceso de tokens. Integramos la eliminación de markdown a través de Strip-Markdown y la limpieza inteligente de la carga útil con Parsed Light.

Después de eso, llevamos Bright Data a las plataformas que realmente utilizan las empresas: Google ADK, IBM watsonx, Databricks y Snowflake.

Y hoy, hemos cerrado el círculo con evaluaciones y observabilidad. Porque no se puede mejorar lo que no se puede medir.

Esta es la pila completa para los agentes de IA de producción:

Grupos de herramientas → Reducir la contaminación del contexto
Herramientas personalizadas → Maximizar la precisión
Optimización de tokens → Minimizar los costes
Integraciones empresariales → Implementar en cualquier lugar
Evaluaciones + Observabilidad → Mantener la calidad

Gracias

A todos los que nos han seguido esta semana: gracias.

A los desarrolladores que están creando la próxima generación de agentes de IA: estamos deseando ver lo que crean.

A las empresas que implementan IA a gran escala: estamos aquí para que sea fiable.

Y a la comunidad de código abierto que ha hecho posible MCP: esto es solo el principio.

Construyamos juntos el futuro de la IA.