AI

Mejora Databricks Agent Bricks con el Web MCP de Bright Data

Descubre cómo la integración del Web MCP de Bright Data potencia los agentes de IA de Databricks con acceso a datos web en tiempo real para flujos de trabajo más inteligentes e informados.
11 min de lectura
Databricks Agent Bricks with Bright Data

En este artículo del blog, aprenderás:

  • Qué es Databricks Agent Bricks y el valor que aporta al desarrollo de agentes de IA.
  • Por qué los agentes de IA de Databricks se vuelven mucho más potentes cuando pueden combinar datos empresariales internos con inteligencia web externa.
  • Cómo equipar un agente de IA en Agent Bricks con estas capacidades conectándolo al Web MCP de Bright Data.

¡Comencemos!

¿Qué es Databricks Agent Bricks?

Databricks Agent Bricks

Agent Bricks es un servicio de Databricks para crear, desplegar y gobernar agentes de IA de nivel productivo basados en los datos de tu empresa. Al combinar contexto empresarial, modelos de IA y herramientas externas, permite a las organizaciones crear agentes de IA fiables, escalables y gobernados.

Es especialmente útil para escenarios como análisis de documentos, atención al cliente, investigación, automatización de flujos de trabajo e inteligencia empresarial. Las principales funcionalidades que ofrece son:

  • Agentes de IA con conciencia empresarial: Utiliza esquemas de negocio, definiciones y contexto semántico para generar respuestas más precisas y fundamentadas.
  • Múltiples tipos de agentes: Admite asistentes de conocimiento, pipelines de extracción de información, agentes supervisores para flujos de trabajo de múltiples pasos y agentes Python completamente personalizados.
  • Soporte multimodelo: Accede a modelos de OpenAI, Anthropic, Google, Meta y proveedores de código abierto a través de una única plataforma con lógica de cambio y respaldo de modelos.
  • Integraciones externas: Se conecta a servidores MCP, APIs y sistemas empresariales para ampliar las capacidades del agente más allá de los datos internos.
  • Gobernanza y seguridad: Se integra con Unity Catalog para aplicar permisos, linaje, propiedad y control de acceso detallado.
  • Evaluación y observabilidad: Incluye benchmarking automatizado, evaluación LLM-as-a-judge y trazado MLflow para depuración y monitoreo.

Por qué los agentes de IA de Databricks necesitan acceso a la web

Independientemente de la plataforma que uses para crearlos, los agentes de IA empresariales solo son tan capaces como las herramientas a las que pueden acceder. Esto se debe a que todos los LLMs comparten dos limitaciones fundamentales:

  • Conocimiento limitado: Los LLMs se entrenan con conjuntos de datos estáticos que representan solo una instantánea del pasado.
  • Sin acceso nativo a sistemas externos: Por defecto, los LLMs no pueden interactuar con la web ni con otros servicios de tu stack tecnológico.

Esta brecha se soluciona equipando a los agentes de IA con herramientas, normalmente a través de MCP o integraciones personalizadas. Por eso Databricks Agent Bricks admite MCP.

Para abordar ambas limitaciones, necesitas un MCP que permita a los agentes de IA buscar en la web, descubrir información relevante y extraer contenido de sitios web. Eso es exactamente lo que proporciona el Web MCP de Bright Data.

El Web MCP de Bright Data como solución

El Web MCP de Bright Data expone herramientas que se conectan a las APIs de Bright Data. Es una de las integraciones oficialmente compatibles en Databricks, lo que significa que puedes encontrarla directamente en el Databricks Marketplace:

El Web MCP de Bright Data en el Databricks Marketplace

En el nivel gratuito Rapid mode (que incluye 5.000 solicitudes gratuitas al mes), las herramientas disponibles del Web MCP incluyen:

Herramienta Descripción
search_engine + versión por lotes Recupera resultados de motores de búsqueda estructurados en JSON o Markdown desde Google, Bing, Yandex y más
scrape_as_markdown + versión por lotes Convierte cualquier página web en Markdown limpio mientras evita las protecciones anti-bot
discover Descubrimiento web impulsado por IA que devuelve resultados relevantes y clasificados

[Pro mode](https://github.com/brightdata/brightdata-mcp?tab=readme-ov-file#-pricing, modes) desbloquea capacidades avanzadas de extracción estructurada para plataformas como Amazon, LinkedIn, Yahoo Finance, YouTube, Zillow, Google Maps y más de 40 fuentes. También incluye herramientas para automatización de navegadores. Descubre todas las herramientas del Web MCP.

Lo que distingue a Bright Data es su infraestructura de nivel empresarial, respaldada por una red de proxies de más de 400 millones de IPs residenciales. Esto admite escalabilidad y concurrencia ilimitadas, logrando una tasa de éxito del 99,95% y una disponibilidad garantizada por SLA del 99,99%.

Cómo conectar Databricks Agent Bricks al Web MCP de Bright Data

En este capítulo paso a paso, te guiaremos a través del proceso de configuración del Web MCP en Databricks. Luego aprenderás cómo integrarlo en un agente de IA de Databricks en Agent Bricks para habilitar capacidades de búsqueda web, descubrimiento y scraping.

Nota: Si buscas cómo acceder y consultar conjuntos de datos de Bright Data en Databricks, lee nuestro artículo dedicado.

¡Sigue las instrucciones a continuación!

Requisitos previos

Para completar esta sección del tutorial, asegúrate de tener:

Para una experiencia más fluida, también se recomienda tener:

Paso #1: Instalar el Web MCP de Bright Data

Inicia sesión en tu cuenta de Databricks. Deberías ver el panel de inicio del workspace:

El panel de inicio del workspace de Databricks

Recuerda que el Web MCP de Bright Data es una integración oficialmente compatible disponible en el Databricks Marketplace. En la barra lateral izquierda, selecciona la opción “Marketplace” y luego presiona “View MCP listings”:

Serás redirigido al Databricks Marketplace. En la barra de búsqueda, escribe “bright data” y selecciona el listado “The web MCP”:

En la página de Bright Data “The web MCP”, revisa los detalles y haz clic en “Install” para añadirlo a tu workspace:

Instalando el Web MCP en tu workspace de Databricks

Asegúrate de completar el formulario de instalación con los siguientes datos:

  • Connection name: bright-data-web-mcp (o el nombre que prefieras)
  • Host: https://mcp.brightdata.com (Importante: Verifica que la URL propuesta coincida con esta)
  • Base path: /mcp
  • Bearer token: Pega tu clave API de Bright Data
  • Credential type: Bearer token
  • Port: 433

Finalmente, haz clic en “Install” para añadir el Web MCP de Bright Data a tu workspace de Databricks mediante la integración oficial. ¡Genial!

Paso #2: Permitir conexiones a los servidores de Bright Data

Tras la instalación, serás redirigido a la página bright-data-web-mcp. Sin embargo, es posible que notes que no se detectan herramientas para el servidor MCP configurado:

Nota que no se encontraron herramientas

Esto ocurre porque Databricks bloquea por defecto las conexiones salientes a dominios externos, incluido mcp.brightdata.com (necesario para el servidor Web MCP).

Como referencia, el error técnico subyacente es:

"Failed request to https://mcp.bringthdata.com:443/mcp. Error: Access to mcp.bringthdata.com is denied because of serverless network policy."

Para solucionarlo, debes permitir explícitamente el acceso a mcp.brightdata.com para el tráfico de salida serverless en la configuración de tu cuenta de Databricks. Comienza abriendo el menú desplegable del workspace en la esquina superior derecha y seleccionando “Manage account”:

Ve a la sección “Security”, selecciona “Serverless egress control” y haz clic en “Create new network policy”:

Dale un nombre a la política (por ejemplo, bright-data-mcp) y elige la opción “Restricted access to specific destinations”. Luego añade mcp.brightdata.com como destino permitido usando el botón “Add destination”:

Habilita la política para todos los productos serverless de Databricks y haz clic en “Create”:

Creando la nueva política de red

A continuación, ve a la página Workspaces, selecciona tu workspace y haz clic en el icono de edición en la sección desplegable “Networking”. Establece la política de red en bright-data-mcp y haz clic en “Save”:

Configurando la política de red requerida en tu workspace de Databricks

Vuelve a la página bright-data-web-mcp y actualízala. Ahora deberías ver que Databricks carga correctamente las herramientas del Web MCP:

Nota las herramientas cargadas

Estas herramientas corresponden a las capacidades expuestas por el Web MCP en modo Rapid (gratuito). ¡Bien hecho!

Paso #3: Verificar que la conexión del Web MCP funciona

En la página bright-data-web-mcp, haz clic en “Try in Playground”. Esto abre una interfaz de chat de IA con el servidor MCP ya configurado.

Haz una pregunta sencilla, como:

Scrape the https://example.com page as Markwon

Deberías ver cómo la IA llama de forma autónoma a la herramienta scrape_as_markdown del Web MCP en la URL especificada para completar la tarea:

El Markdown devuelto (recuperado mediante la herramienta scrape_as_markdown respaldada por la API Web Unlocker de Bright Data) coincide con el contenido visible en la página de destino:

La página example.com

Esto confirma que la IA está usando correctamente las herramientas del Web MCP y que la integración funciona como se esperaba. ¡Perfecto!

Paso #4: Definir tu agente de IA de Databricks

Para acceder al servicio Databricks Agent Bricks, haz clic en “Agents” en la barra lateral izquierda. Luego, añade un nuevo agente de IA presionando “Create Agent”:

Se te pedirá que elijas el tipo de agente que deseas crear. Para este tutorial, selecciona “Supervisor Agent”:

Un agente supervisor es un sistema de orquestación multiagente que coordina agentes de IA y herramientas para resolver tareas más complejas.

Para conectar el Web MCP de Bright Data, haz clic en “Add an External MCP” en la sección “Tools and subagents”:

A continuación, selecciona la conexión bright-data-web-mcp que configuraste anteriormente:

Tu agente ahora tendrá acceso a las herramientas del Web MCP de Bright Data. Puedes repetir el mismo proceso para añadir herramientas adicionales, servidores MCP, Genie Spaces u otras integraciones.

En este ejemplo, el agente también se conectó a “Bakehouse Sales Starter Space”, un Genie Space integrado vinculado al conjunto de datos Delta de ejemplo samples.bakehouse.

El agente de IA de Databricks configurado

Importante: En producción, configura el agente para usar Genie Spaces personalizados conectados a tus propios conjuntos de datos de Databricks. También deberías personalizar el nombre, las instrucciones y la descripción del agente para adaptarlos mejor a tu caso de uso específico.

¡Genial! El único paso restante es probar tu agente de IA de Databricks con el Web MCP.

Paso #5: Probar el agente

Para verificar que tu agente de IA de Databricks funciona correctamente, prueba una tarea que combine datos empresariales internos con inteligencia web externa. Por ejemplo, escribe:

Retrieve our revenue for May 2024. Then search online for bakery industry revenue data for the same period. Scrape the most relevant sources and produce a report highlighting both internal revenue performance and external market insights, including trends, expectations, and overall industry conditions.

Ejecuta el prompt y deberías ver algo como esto:

Ejecución del prompt

Específicamente, el agente de IA de Databricks:

  1. Consultó “Bakehouse Sales Starter Space” para recuperar los datos de ingresos del período solicitado.
  2. Llamó a la herramienta search_engine del Web MCP de Bright Data (impulsada por la API SERP de Bright Data) para recopilar resultados de búsqueda relevantes de Google sobre el rendimiento de la industria panadera.
  3. Identificó las fuentes más relevantes de los resultados devueltos.
  4. Extrajo contenido de esas páginas usando la herramienta scrape_as_markdown.
  5. Combinó los insights externos con los datos empresariales internos para generar un informe unificado.
El informe producido

Observa que el resultado final combina información empresarial propia con inteligencia de mercado actualizada. Sin el Web MCP, eso no sería posible, ya que los LLMs no tienen acceso nativo a la web.

El Web MCP cierra esa brecha, permitiendo que tu agente de IA de Databricks busque en la web, descubra fuentes relevantes y extraiga información de sitios web, incluidas páginas complejas o protegidas. Todo esto funciona sobre la infraestructura empresarial de Bright Data diseñada para escalabilidad y concurrencia.

¡Et voilà! Este ejemplo solo rasca la superficie de lo que puedes construir. Al combinar los agentes de IA de Databricks con el Web MCP de Bright Data, puedes crear flujos de trabajo mucho más avanzados que integren análisis internos con datos web en tiempo real para una amplia variedad de casos de uso.

Conclusión

En este tutorial, aprendiste qué es Databricks Agent Bricks y las funcionalidades que admite. En particular, viste cómo crear un agente de IA de Databricks y conectarlo al Web MCP de Bright Data.

Gracias a esta integración, los agentes de IA de Databricks obtienen acceso a la web para investigación, fundamentación, enriquecimiento de datos y muchas otras tareas. Esto te ayuda a combinar datos internos de Databricks con inteligencia externa de nivel empresarial, abriendo la puerta a análisis más profundos y enriquecidos.

Para escenarios más avanzados, explora la gama completa de soluciones de Bright Data diseñadas para ecosistemas de IA.

¡Crea una cuenta de Bright Data hoy y empieza a construir con herramientas de datos web listas para IA!