Evaluaciones y observabilidad: mida lo que importa
Hemos llegado al último día de la Semana de Lanzamiento. Durante los últimos cuatro días, le hemos proporcionado las herramientas para crear agentes de IA de nivel de producción:
- Día 1: Grupos de herramientas para eliminar la contaminación del contexto
- Día 2: Herramientas personalizadas para una precisión quirúrgica
- Día 3: Optimización de tokens para maximizar la eficiencia
- Día 4: Integraciones empresariales para romper los silos
Hoy abordamos una de las principales peticiones que nos han hecho llegar nuestros clientes: ¿cómo saber si su agente funciona como se espera?
Presentamos: Marco de evaluaciones y panel de observabilidad.
El reto: visibilidad del comportamiento del agente
Ha creado un agente de comercio electrónico. Lo ha adaptado a las herramientas adecuadas. Ha optimizado el uso de tokens. Ahora necesita visibilidad en la producción:
- ¿Qué herramientas se están utilizando realmente?
- ¿Se están utilizando correctamente las herramientas?
- ¿Dónde fallan los agentes?
- ¿Cuál es su uso y coste reales?
- ¿Cómo afectan las nuevas configuraciones de herramientas a las tasas de éxito?
Sin visibilidad, estás volando a ciegas. No se puede optimizar lo que no se puede medir.
Esto es especialmente importante cuando se trabaja con grupos de herramientas. Al cambiar de grupos=comercio electrónico a una selección de herramientas personalizada, ¿ha interrumpido accidentalmente un flujo de trabajo crítico? No lo sabrá hasta que un cliente se queje.
La solución: visibilidad en dos capas
Hemos creado una pila de visibilidad completa con dos sistemas complementarios:
1. Marco de evaluaciones MCP (desarrollo y pruebas)
Marco de pruebas automatizadas impulsado por mcpjam que valida el comportamiento de los agentes antes de la producción
2. Panel de observabilidad (supervisión de la producción)
Panel de control de análisis de uso en tiempo real en el panel de control de Bright Data que realiza un seguimiento de cada llamada a la API en producción.
Veamos cada capa en detalle.
Capa 1: Marco de evaluación MCP
¿Qué es mcpjam?
mcpjam es la CLI de evaluación oficial para servidores Model Context Protocol. Piensa en ello como «pruebas de integración para agentes de IA».
Usted escribe casos de prueba como consultas en lenguaje natural, especifica qué herramientas deben llamarse y mcpjam ejecuta su agente a través del flujo de trabajo automáticamente.
Cómo lo utilizamos
Hemos creado un conjunto de evaluaciones completo para cada grupo de herramientas que lanzamos el primer día. Cuando configura una nueva selección de herramientas, puede ejecutar estas evaluaciones para verificar que todo funciona antes de la implementación.
Estructura del proyecto
mcp-evals/
├── server-configs/ # Configuraciones de conexión al servidor por grupo de herramientas
│ ├── server-config.ecommerce.json
│ ├── server-config.social.json
│ ├── server-config.business.json
│ ├── server-config.browser.json
│ └── ...
├── tool-groups.json/ # Casos de prueba por grupo de herramientas
│ ├── tool-groups.ecommerce.json
│ ├── tool-groups.social.json
│ ├── tool-groups.business.json
│ ├── tool-groups.browser.json
│ └── ...
└── llms.json # Claves API del proveedor LLM
Cada grupo de herramientas tiene su propio conjunto de pruebas con consultas reales que los agentes deben ser capaces de gestionar.
Ejemplo: Evaluación de comercio electrónico
De mcp-evals/tool-groups.json/tool-groups.ecommerce.json:
{
"title": "Prueba de comercio electrónico: búsqueda de productos en Amazon",
"query": "Busca auriculares inalámbricos en Amazon y muéstrame los productos más vendidos con reseñas",
"runs": 1,
"model": "gpt-5.1-2025-11-13",
"proveedor": "openai",
"llamadas a herramientas esperadas": ["web_data_amazon_product_search"],
"servidores seleccionados": ["ecommerce-server"],
«advancedConfig»: {
«instructions»: «Eres un asistente de compras que ayuda a los usuarios a encontrar productos en Amazon»,
«temperature»: 0.1,
«maxSteps»: 5,
«toolChoice»: «required»
}
}
Esta prueba valida que:
- El agente interpreta correctamente la consulta del usuario.
- Llama a la herramienta correcta (
web_data_amazon_product_search) - Pasa los parámetros adecuados (palabra clave del producto, URL de Amazon).
- Se completa dentro del tiempo de espera configurado
- Devuelve una respuesta coherente
Ejecución de evaluaciones: inicio rápido
Instalar mcpjam:
npm install -g @mcpjam/cli
Ejecutar pruebas de grupos de herramientas de comercio electrónico:
mcpjam evals run
-t mcp-evals/tool-groups.json/tool-groups.ecommerce.json
-e mcp-evals/server-configs/server-config.ecommerce.json
-l mcp-evals/llms.json
Resultado esperado:
Ejecutando pruebas.
Conectado a 1 servidor: ecommerce-server.
Se han encontrado 13 herramientas en total.
Ejecutando 2 pruebas.
Prueba 1: Prueba de comercio electrónico: búsqueda de productos en Amazon.
Usando openai:gpt-5.1-2025-11-13.
Ejecución 1/1.
Usuario: busca auriculares inalámbricos en Amazon y muéstrame los productos más vendidos con reseñas.
[tool-call] web_data_amazon_product_search
{
"keyword": "auriculares inalámbricos",
"url": "https://www.amazon.com"
}
[tool-result] web_data_amazon_product_search
{
"content": [...]
}
asistente: Estos son algunos de los mejores auriculares inalámbricos disponibles actualmente en Amazon...
Esperado: [web_data_amazon_product_search]
Real: [web_data_amazon_product_search]
APROBADO (23,8 s)
Tokens • entrada 20923 • salida 1363 • total 22286
Qué se prueba
Hemos creado conjuntos de evaluación para los 8 grupos de herramientas desde el primer día:
| Grupo de herramientas | Cobertura de la prueba | Ejemplos de consultas |
|---|---|---|
| Comercio electrónico | Búsquedas de productos en Amazon, Walmart y Best Buy | «Comparar precios del iPhone 15 en diferentes tiendas» |
| redes sociales | Contenido de TikTok, publicaciones de Instagram, tendencias de Twitter | «Encuentra vídeos de TikTok sobre IA que sean tendencia» |
| Negocios | Perfiles de LinkedIn, datos de financiación de Crunchbase, ubicaciones de Google Maps | «Buscar el perfil de LinkedIn del director ejecutivo de Microsoft» |
| Investigación | Repositorios de GitHub, noticias de Reuters, fuentes académicas | «Busca repositorios Python para Scraping web con más de 1000 estrellas» |
| Finanzas | Datos bursátiles, tendencias del mercado, noticias financieras | «Obtener el último precio de las acciones de NVIDIA» |
| tiendas de aplicaciones | App Store de iOS, reseñas y valoraciones de Google Play | «Encuentre las aplicaciones de meditación mejor valoradas en iOS» |
| navegador | Navegador de scraping de flujos de trabajo de automatización del navegador | «Navega a Amazon y añade un artículo al carrito» |
| advanced_scraping | Operaciones por lotes, scraping personalizado | «Extraiga datos de productos de un sitio web personalizado» |
Cada conjunto de pruebas contiene entre 2 y 5 casos de prueba básicos que cubren los flujos de trabajo más comunes de los agentes para ese dominio.
Por qué es importante
Las evaluaciones le ofrecen:
- Pruebas de regresión: ejecute evaluaciones después de cada cambio de configuración para asegurarse de que no ha interrumpido los flujos de trabajo existentes.
- Comparativa de rendimiento: realice un seguimiento del uso de tokens y la latencia en diferentes modelos LLM.
- Validación de herramientas: verifique que la lógica de selección de herramientas funciona correctamente.
- Documentación: los casos de prueba sirven como ejemplos ejecutables de lo que puede hacer su agente.
Antes de los grupos de herramientas de Day 1, no teníamos una forma sistemática de comprobar si el cambio de groups=ecommerce a groups=ecommerce,social afectaría al comportamiento del agente. Ahora sí la tenemos.
Capa 2: Panel de observabilidad
Supervisión de la producción en tiempo real
Mientras que las evaluaciones se encargan de las pruebas previas a la implementación, el panel de observabilidad le ofrece visibilidad en tiempo real del uso en producción.
Hemos integrado un nuevo panel de uso de MCP en el panel de control de Bright Data que realiza un seguimiento de todas las llamadas a la API realizadas a través de su servidor MCP.
Lo que ves
El panel muestra una tabla de uso completa con:
| Fecha | Herramienta | Nombre del cliente | URL | Estado |
|---|---|---|---|---|
| 26/11/2025 14:32:15 | web_data_amazon_product | my-ecommerce-agent | https://amazon.com/… | Éxito |
| 26/11/2025 14:31:52 | motor_de_búsqueda | my-research-bot | N/A | Éxito |
| 26/11/2025 14:30:18 | enlace_de_datos_web_perfil_de_persona_en_linkedin | agente-de-generación-de-clientes-potenciales | https://linkedin.com/in/… | Éxito |
| 26/11/2025 14:29:03 | navegación_del_navegador_scraping | agente de automatización | https://example.com | Fallido |
Métricas clave
1. Desglose del uso de herramientas
Vea qué herramientas se utilizan con más frecuencia:
web_data_amazon_product: 1243 llamadas
search_engine: 892 llamadas
web_data_linkedin_person_profile: 634 llamadas
scrape_as_markdown: 421 llamadas
Esto le indica qué conjuntos de datos son más valiosos para sus agentes. Si está pagando por grupos de herramientas que no utiliza, lo verá aquí.
2. Identificación del cliente
Cada instancia de agente se puede etiquetar con un nombre de cliente (a través del parámetro client_name en la URL de conexión):
npx -y @brightdata/mcp
El panel de control agrupa el uso por cliente, por lo que puede realizar un seguimiento de los costes por agente/flujo de trabajo.
3. Índices de éxito frente a índices de fracaso
Supervise la fiabilidad de los agentes:
Total de solicitudes: 3190
Exitosas: 3102 (97,2 %)
Fallidas: 88 (2,8 %)
Haga clic en las solicitudes fallidas para ver los detalles del error y depurar los problemas.
4. Seguimiento de URL
En el caso de las herramientas de conjuntos de datos, el panel muestra a qué URL o recursos se ha accedido. Esto le ayuda a:
- Identificar problemas de limitación de velocidad (demasiadas solicitudes al mismo dominio).
- Realizar un seguimiento de los productos, perfiles o páginas específicos que se están rastreando.
- Auditar el cumplimiento (asegurarse de que los agentes no acceden a sitios restringidos).
Cómo acceder
- Inicie sesión en el panel de control de Bright Data
- Vaya a Uso de MCP (nueva sección en la barra lateral).
- Vea los datos de uso en tiempo real de todas sus conexiones MCP
Filtros:
- Intervalo de fechas (últimas 24 horas, 7 días, 30 días, personalizado)
- Nombre de la herramienta (filtrar por herramientas específicas)
- Nombre del cliente (filtrar por instancia de agente)
- Estado (éxito/fracaso)
Exportación:
Descargar datos de uso como CSV para un análisis más profundo o la integración de herramientas de BI.
Flujo de trabajo combinado: Desarrollo → Producción
Así es como funcionan los dos sistemas juntos:
Fase 1: Desarrollo (previo a la implementación)
- Configure los grupos de herramientas utilizando la función
featurenpx -y @brightdata/mcpdel día 1. - Ejecute evaluaciones para validar
la selección deherramientasmcpjam evals run -t mcp-evals/tool-groups.json/tool-groups.ecommerce.json -e mcp-evals/server-configs/server-config.ecommerce.json -l mcp-evals/llms.json - Revisar los resultados: Asegurarse de que todas las pruebas se superan
- El uso de tokens está dentro del presupuesto
- Se están utilizando las herramientas correctas
- Las respuestas son precisas
- Iterar: si las pruebas fallan, ajustar la selección de herramientas o las indicaciones del sistema
Fase 2: Producción (posterior a la implementación)
- Implementar el agente con el nombre del cliente
etiquetado npx -y @brightdata/mcp - Panel de control: compruebe el uso en tiempo real
- ¿Las tasas de éxito coinciden con los resultados de la evaluación?
- ¿Se están llamando herramientas inesperadas?
- ¿Hay algún problema de limitación de velocidad o autenticación?
- Analizar tendencias: con el tiempo, busque:
- Picos de uso (¿es necesario escalar?)
- Cambios en los patrones de fallo (¿degradación de la herramienta?)
- Anomalías en los costes (optimizar el uso de tokens)
- Optimizar: Utilice la información del panel de control para refinar la selección de herramientas
- Elimine las herramientas que no se utilizan (reduzca los costes de tokens)
- Añadir herramientas que faltan (mejorar las tasas de éxito)
- Ajustar los límites de velocidad (evitar la limitación)
- Volver a ejecutar evaluaciones: después de cualquier cambio de configuración, vuelva a ejecutar las evaluaciones para asegurarse de que no haya regresiones
Estadísticas de rendimiento: resumen de la semana de lanzamiento
Recapitulemos. Este es el impacto acumulado de los 5 días:
Día 1: Grupos de herramientas
Impacto: reducción del 60 % en los tokens de solicitud del sistema.
Ejemplo: Conjunto completo (más de 200 herramientas) → Grupo único (25 herramientas)
Ahorro de tokens: ~8000 tokens por solicitud (solicitud del sistema)
Día 2: Herramientas personalizadas
Impacto: reducción del 85 % en comparación con el conjunto completo al seleccionar 4 herramientas específicas
Ejemplo: paquete completo (más de 200 herramientas) → personalizado (4 herramientas)
Ahorro de tokens: ~9500 tokens por solicitud (solicitud del sistema)
Día 3: Optimización de tokens
Impacto: reducción del 30-60 % en los tokens de respuesta de las herramientas
Ejemplo: Herramientas de Scraping web + Conjuntos de datos en un único flujo de trabajo
Ahorro de tokens: ~10 250 tokens por solicitud (resultados de la herramienta)
Efecto combinado: flujo de trabajo del agente de comercio electrónico
Escenario: «Encuentra los 5 mejores auriculares de Amazon por menos de 100 $ y resume las reseñas».
| Configuración | Solicitud del sistema | Resultados de la herramienta | Total de tokens | Coste por solicitud |
|---|---|---|---|---|
| Paquete completo (sin optimización) | 15 000 | 22 500 | 37 500 | 0,45 |
| + Grupos de herramientas | 6000 | 22 500 | 28 500 | 0,34 |
| + Herramientas personalizadas | 2250 | 22 500 | 24 750 | 0,30 |
| + Optimización de tokens | 2250 | 12 250 | 14 500 | 0,17 |
Reducción total: 61,3 % menos de tokens, 62,2 % menos de coste
Con 1000 solicitudes al día, eso supone un ahorro de 280 $ al día o 102 200 $ al año.
Día 4: Integraciones empresariales
Impacto: eliminación de la sobrecarga de ETL personalizado
Ahorro de tiempo: semanas de trabajo de ingeniería → minutos de configuración
Mantenimiento: cero (gestionado por Bright Data).
Día 5: Evaluaciones + Observabilidad
Impacto: control de calidad proactivo + visibilidad de la producción
Reducción de fallos: mejora del 10-15 % en las tasas de éxito (mediante la detección temprana de problemas).
Ahorro de costes: Detección de regresiones antes de la producción (ahorro de cientos de solicitudes fallidas)
Pruébelo: Empiece hoy mismo
Paso 1: Realice su primera evaluación
# Instalar mcpjam
npm install -g @mcpjam/cli
# Clonar el repositorio Web MCP
git clone https://github.com/brightdata/brightdata-mcp-sse.git
cd brightdata-mcp-sse
# Configurar sus claves API en mcp-evals/llms.json
# Configure su token de Bright Data en las configuraciones del servidor
# Ejecute evaluaciones de comercio electrónico
mcpjam evals run
-t mcp-evals/tool-groups.json/tool-groups.ecommerce.json
-e mcp-evals/server-configs/server-config.ecommerce.json
-l mcp-evals/llms.json
Paso 2: Acceda al panel de observabilidad
- Regístrese en Bright Data
- Vaya a Uso de MCP en el Panel de control
- Implemente un agente y observe cómo aparecen los datos de uso en tiempo real
Paso 3: Repita
Utilice evaluaciones para probar configuraciones. Utilice el panel de control para supervisar la producción. Repita el proceso.
Recursos
Evaluaciones de MCP:
- mcpjam GitHub: CLI de evaluación oficial
- Protocolo de contexto del modelo: especificación oficial de MCP
Panel de observabilidad:
- Panel de control de Bright Data: acceda a su panel de uso
- Documentación de la API: referencia completa de la API
Servidor MCP web:
- Repositorio GitHub: código del servidor de código abierto
- Paquete NPM: instalación a través de npm
Resumen de la semana de lanzamiento:
- Día 1: Grupos de herramientas— Eliminar la contaminación del contexto
- Día 2: Herramientas personalizadas: selección quirúrgica de herramientas
- Día 3: Optimización de tokens: maximizar la eficiencia
- Día 4: Integraciones empresariales: romper los silos
- Día 5: Evaluaciones y observabilidad: mida lo que importa (usted está aquí)
Semana de lanzamiento: unas últimas palabras
Cinco días. Cinco lanzamientos importantes. Una misión: preparar los agentes de IA para la producción.
Partimos de la idea de que la contaminación del contexto es el mayor obstáculo en los flujos de trabajo de los agentes. Le proporcionamos grupos de herramientas para delimitar su contexto.
Luego nos dimos cuenta de que ni siquiera los grupos son lo suficientemente precisos. Lanzamos herramientas personalizadas para lograr una precisión quirúrgica.
A continuación, abordamos el lado de la salida: respuestas con exceso de tokens. Integramos la eliminación de markdown a través de Strip-Markdown y la limpieza inteligente de la carga útil con Parsed Light.
Después de eso, llevamos Bright Data a las plataformas que realmente utilizan las empresas: Google ADK, IBM watsonx, Databricks y Snowflake.
Y hoy, hemos cerrado el círculo con evaluaciones y observabilidad. Porque no se puede mejorar lo que no se puede medir.
Esta es la pila completa para los agentes de IA de producción:
- Grupos de herramientas → Reducir la contaminación del contexto
- Herramientas personalizadas → Maximizar la precisión
- Optimización de tokens → Minimizar los costes
- Integraciones empresariales → Implementar en cualquier lugar
- Evaluaciones + Observabilidad → Mantener la calidad
Gracias
A todos los que nos han seguido esta semana: gracias.
A los desarrolladores que están creando la próxima generación de agentes de IA: estamos deseando ver lo que crean.
A las empresas que implementan IA a gran escala: estamos aquí para que sea fiable.
Y a la comunidad de código abierto que ha hecho posible MCP: esto es solo el principio.
Construyamos juntos el futuro de la IA.