AI

Conecta los Agentes de IA de Dataiku a la Web con Bright Data

Conecta tus agentes de IA de Dataiku a la web con el Web MCP de Bright Data para habilitar scraping, búsqueda y descubrimiento a escala.
14 min de lectura
Connect Dataiku AI Agents to the Web via Bright Data

En este tutorial, aprenderás:

  • Qué es Dataiku y qué aporta al desarrollo de agentes de IA en empresas.
  • Las principales limitaciones de los agentes de IA y cómo superarlas usando herramientas de acceso web.
  • Cómo conectar un agente de IA de Dataiku al Web MCP de Bright Data para scraping web, búsqueda, descubrimiento, automatización y más.

¡Comencemos!

How Dataiku Supports AI Agents

Dataiku es una plataforma centralizada y colaborativa que ayuda a las organizaciones a convertir datos brutos en información útil, modelos predictivos y aplicaciones GenIA. Proporciona un entorno de extremo a extremo donde los equipos de datos y los usuarios de negocio pueden colaborar en proyectos de análisis e IA.

Agentes de IA en Dataiku

Dataiku admite agentes de IA ofreciendo un entorno completo para crear, implementar y gestionar agentes de forma segura a escala. Proporciona las herramientas, la gobernanza y las integraciones necesarias para conectar agentes a datos, modelos y sistemas externos, garantizando que operen de forma fiable dentro de los flujos de trabajo empresariales y permanezcan controlados y auditables.

Las principales capacidades que ofrece la plataforma Dataiku para agentes de IA son:

  • Creación flexible de agentes: Creación de agentes visual y basada en código tanto para usuarios no técnicos como para desarrolladores avanzados.
  • Soporte integrado para herramientas: Integraciones con servicios de terceros para consultar conjuntos de datos, conectarse a modelos de IA y llamar a servicios web.
  • LLM Mesh: Capa de abstracción centralizada para gestionar y enrutar el uso de LLM entre proveedores como OpenAI, Anthropic y Mistral.
  • Gobernanza empresarial: Control de acceso basado en roles, auditoría, trazabilidad, pruebas y monitoreo del rendimiento para un uso seguro en producción.

Why Extend Dataiku AI Agents with Web Scraping, Discovery, Search, and Interaction Tools

Los agentes de IA de Dataiku, como todos los sistemas basados en LLM, están limitados por una restricción fundamental: el estancamiento de la información…

Los modelos de lenguaje grande generan respuestas basadas en datos de entrenamiento que reflejan el pasado, no el presente. Como resultado, pueden producir recomendaciones desactualizadas, hechos alucinados o información incompleta cuando se usan en entornos empresariales que cambian rápidamente.

En la práctica, esto se convierte en un cuello de botella grave para los flujos de trabajo de Dataiku. Un agente de IA sin acceso a datos actualizados puede basarse en prácticas obsoletas, perder actualizaciones recientes en APIs o plataformas, o no incorporar conjuntos de datos y señales de negocio recién disponibles. Eso reduce la fiabilidad y limita el valor de la automatización impulsada por IA dentro de los pipelines empresariales.

Para superar esta limitación, los agentes de Dataiku pueden conectarse de forma nativa a una infraestructura de datos web en tiempo real. Aquí es donde Bright Data se convierte en una mejora fundamental.

Bright Data’s Web MCP

El Web MCP de Bright Data equipa a los agentes de IA de Dataiku con búsqueda web en vivo, descubrimiento de datos, extracción estructurada e interacción automatizada con el navegador. Permite a los agentes operar con información actual y verificable en lugar de depender únicamente del conocimiento estático.

Web MCP expone más de 70 herramientas para interactuar con los productos y servicios basados en API de Bright Data. Incluso en el modo Rapid (nivel gratuito), incluye herramientas útiles como:

Herramienta Descripción
search_engine + versión por lotes para uso paralelo Obtiene resultados de Google, Bing o Yandex en JSON estructurado o Markdown
scrape_as_markdown + versión por lotes para uso paralelo Convierte cualquier página web en Markdown limpio gestionando el bypass de protección anti-scraping
discover Búsqueda impulsada por IA que devuelve resultados web relevantes y clasificados

El [modo Pro](https://github.com/brightdata/brightdata-mcp?tab=readme-ov-file#-pricing, modes) desbloquea capacidades avanzadas para la extracción de datos estructurados de plataformas como Yahoo Finance, Amazon, LinkedIn, YouTube, Zillow, Google Maps y más de 40 otras. Además, ofrece herramientas para automatización completa del navegador web.

Importante: Las herramientas de Web MCP se basan en la infraestructura a gran escala de Bright Data, impulsada por una red global de proxies residenciales con más de 400 millones de IPs en más de 195 países. Esto garantiza alta fiabilidad, escalabilidad y acceso consistente a recursos web, incluso a niveles de carga empresarial.

How to Give Dataiku Agents Access to the Web via Bright Data Web MCP

En esta guía paso a paso, se te guiará a través del proceso de configuración del Web MCP de Bright Data en agentes de Dataiku. De este modo, obtendrán la capacidad de explorar la web y basar sus respuestas en información real, actual y verificable.

¡Sigue las instrucciones a continuación!

Prerequisites

Para seguir esta sección del tutorial, asegúrate de tener:

Nota: Sigue la guía oficial para configurar tu clave API de Bright Data.

Step #1: Create Your Dataiku Space

Después de iniciar sesión en Dataiku Cloud por primera vez, se te pedirá que crees tu primer espacio de Dataiku.

Introduce un nombre para tu espacio, selecciona una región y haz clic en el botón “CREATE MY SPACE”:

Creando un espacio de Dataiku

Puedes pensar en un espacio como un entorno aislado de Dataiku con su propia configuración. Cada espacio ejecuta una versión específica de la plataforma Dataiku. Como Dataiku lanza actualizaciones regularmente, los espacios se actualizan periódicamente para proporcionar acceso a las últimas funciones y mejoras.

Una vez creado tu espacio, serás llevado al panel de control del espacio de Dataiku:

El panel de control del espacio de Dataiku

¡Genial! Tu cuenta de Dataiku Cloud y tu espacio ya están listos para usar.

Step #2: Configure the LLM Integration

Tu agente de Dataiku necesita acceso a un LLM para funcionar. En esta sección, conectaremos una cuenta de OpenAI, aunque el proceso es similar para otros proveedores compatibles.

Comienza abriendo la página “Connections”. Luego, haz clic en “ADD A CONNECTION”:

Serás redirigido a la página “DSS Settings”:

Aquí, haz clic en el menú desplegable “NEW CONNECTION”, busca la cadena “openai” y selecciona la opción correspondiente:

Introduce un nombre para la conexión (por ejemplo, “OpenAI”) y pega tu clave API de OpenAI. Haz clic en “TEST” para verificar que la conexión funciona, luego selecciona “CREATE” para añadirla:

Configurando la integración de OpenAI

Una vez creada, la conexión de OpenAI aparecerá en la página “Connections”:

Tu cuenta de Dataiku ahora puede acceder a los modelos LLM de OpenAI. Estás listo para crear agentes de IA impulsados por modelos externos. ¡Genial!

Step #3: Prepare for the Bright Data Web MCP Remote Connection

Antes de crear tu agente, debes configurar una conexión al servidor Web MCP de Bright Data.

A diferencia de las soluciones de agentes de IA locales, Dataiku se ejecuta en la nube. Esto significa que debes conectarte a la versión remota del servidor Web MCP de Bright Data. En otras palabras, no puedes instalar el servidor Web MCP localmente y conectarte a él desde Dataiku.

Nota: El servidor remoto Web MCP de Bright Data está listo para uso empresarial. Admite conexiones ilimitadas y alta escalabilidad, al igual que todos los demás productos de Bright Data.

Para comenzar, familiarízate con el formato de URL de conexión remota del Web MCP de Bright Data:

https://mcp.brightdata.com/mcp?token=<YOUR_BRIGHT_DATA_API_KEY>&pro=1

Recuerda que el parámetro &pro=1 es opcional:

  • Sin &pro=1: Solo tienes acceso a las herramientas gratuitas (5.000 solicitudes/mes) en modo Rapid.
  • Con &pro=1: Obtienes acceso al conjunto completo de más de 70 herramientas y capacidades avanzadas, pero se aplican cargos por uso.

Si deseas un control más granular, como habilitar solo herramientas o grupos de herramientas específicos, puedes generar una URL de MCP remota personalizada directamente desde el panel de control de Bright Data.

Inicia sesión en tu cuenta de Bright Data y navega a la página “AI Gateways > MCP”. Sigue el asistente de configuración para configurar tu acceso al servidor MCP. Al final del proceso, obtendrás una URL de conexión personalizada como la siguiente:

Observa la URL de conexión Web MCP configurada

Copia la URL de conexión “Streamable HTTP”, ya que la necesitarás en breve para configurar la conexión Web MCP de Bright Data en tu espacio de Dataiku. ¡Genial!

Step #4: Connect Dataiku to the Bright Data Web MCP

Ahora que tienes la URL de conexión del Web MCP de Bright Data, el siguiente paso es crear una conexión MCP en tu espacio de Dataiku.

Como antes, abre el menú desplegable “NEW CONNECTION”. Esta vez, busca “mcp” y selecciona la opción “Remote MCP”:

Dale un nombre a tu conexión MCP (por ejemplo, bright-data-web-mcp) y pega la URL de conexión remota del Web MCP que obtuviste antes:

Configurando la conexión al Web MCP de Bright Data

Pulsa “TEST” para verificar que la conexión funciona correctamente, luego selecciona “CREATE” para añadirla. Una vez creada, la conexión MCP aparecerá en la página “DSS Settings”:

¡Excelente! Tu espacio de Dataiku ahora puede conectarse al servidor Web MCP de Bright Data, dando a tus futuros agentes de IA acceso a capacidades web en tiempo real.

Step #5: Create your Dataiku AI Agent

De vuelta en la página “Overview” de Dataiku, haz clic en “MANAGE” en la tarjeta “Dataiku Solutions”:

Esto te llevará a la página de gestión de proyectos. Haz clic en el menú desplegable “NEW PROJECT” y selecciona la opción “Blank project”:

Dale un nombre a tu proyecto de Dataiku, como “Web Access”, y haz clic en “CREATE”:

Creando un nuevo proyecto de Dataiku

Una vez dentro del proyecto, haz clic en el icono “GenAI” y selecciona “Agents & GenAI Models”:

Aquí, haz clic en “CREATE YOUR FIRST AGENT” para comenzar:

Elige el tipo de agente que prefieras (en este ejemplo, usaremos “Simple Visual Agent”) y haz clic en “CREATE”:

Ahora llegarás a la página de configuración del agente de IA:

La página de configuración del agente de IA de Dataiku

¡Perfecto! Estás listo para equipar al agente de IA con las herramientas del Web MCP de Bright Data.

Step #7: Create the Web MCP Agent Tools

Antes de continuar con la configuración del agente de IA, debes convertir la conexión Remote MCP que creaste antes en herramientas de agente de IA.

Comienza abriendo la página “Agent Tools” desde el icono “GenAI”:

En la página “Agent Tools”, haz clic en “NEW AGENT TOOL”:

Selecciona la opción “MCP” y pulsa “CREATE”:

A continuación, configura el servidor Remote MCP seleccionando la conexión “bright-data-web-mcp” que creaste antes. Luego haz clic en “CREATE”:

Configurando el servidor Remote MCP

Ahora llegarás a la página de configuración de herramientas del agente de IA MCP. Aquí puedes probar las herramientas y definir una descripción general para el conjunto de herramientas MCP. Selecciona todas las herramientas disponibles y actívalas:

Habilitando todas las herramientas del Web MCP

Si configuraste el servidor en modo Pro, verás el conjunto completo de más de 70 herramientas del Web MCP:

Observa todas las herramientas del Web MCP

De lo contrario, solo verás las herramientas disponibles en el modo Rapid (gratuito).

Pulsa “SAVE” en la esquina superior derecha. Las herramientas del Web MCP de Bright Data ya están disponibles para tu agente de Dataiku. ¡Bien hecho!

Step #8: Configure Your Dataiku Agent for Web Access

Ahora tienes todos los elementos necesarios para completar tu agente de IA de Bright Data para tareas relacionadas con la web.

Vuelve a la página “Simple Visual Agent”. En el menú desplegable “LLM”, verás los modelos de OpenAI de tu conexión creada anteriormente. En este ejemplo, usaremos el modelo “GPT-5.4 mini“:

A continuación, debes proporcionar instrucciones claras para definir cómo debe comportarse el agente. En el campo “Instructions”, pega un prompt como este:

You are a general-purpose assistant with access to the web. Use the Bright Data Web MCP tools whenever you are asked to perform web-related tasks, such as:
- Searching the web
- Fetching, reading, or scraping web pages
- Extracting structured data from supported platforms
- Running browser automation or web automation workflows
- Conducting research, investigations, fact-checking, or news lookups
- Any other task involving URLs, links, or web content

Ahora haz clic en “ADD TOOL” y selecciona la opción “MCP” (que corresponde al conjunto de herramientas del Web MCP que configuraste antes):

Tu agente de IA de Dataiku final con acceso web debería tener este aspecto:

Tu agente de IA de Dataiku con acceso web mediante el Web MCP de Bright Data

Misión cumplida. Has creado con éxito un agente de IA de Dataiku integrado con Bright Data mediante MCP para tareas relacionadas con la web. ¡El único paso que queda es probarlo!

Step #9: Test the Agent

Para verificar que tu agente de IA funciona correctamente, ejecútalo con una tarea relacionada con la web. Por ejemplo, escribe un prompt como este:

Access the Best Buy "Top 100 Deals" page and retrieve the top three products listed there.

For each product, extract structured data. Then use this information to produce a detailed report comparing the three products over product name, description, price, rating if available, and key features or specifications.

Finally, conclude with a short analysis of the retailer's current marketing intent based on the selected products, such as discount strategy, promoted categories, positioning, and what this suggests about demand.

Ten en cuenta que esto es algo que un LLM estándar no puede hacer por sí solo, ya que requiere capacidades de búsqueda web y scraping.

Ejecuta el prompt, y esto debería ocurrir:

Ejecución del prompt

Fíjate en la tabla de comparación de productos de Best Buy:

La tabla de comparación de productos de Best Buy

Ten en cuenta que el informe incluye un análisis detallado de los tres principales productos de la página “Top 100 Deals of the Season” de Best Buy, que puedes ver directamente abriendo la misma página en tu navegador:

En particular, al inspeccionar los registros del agente, verás que:

  1. Llamó a la herramienta Web MCP search_engine (respaldada por la API SERP) para buscar en Google la página Top 100 Deals de Best Buy.
  2. Recuperó datos SERP estructurados y los analizó para identificar la URL de destino correcta.
  3. Accedió a la página mediante la herramienta scrape_as_markdown (impulsada por la API Web Unlocker), que devuelve una versión Markdown de la página.
  4. Detectó las 3 principales URLs de productos de Best Buy analizando el contenido Markdown.
  5. Hizo scraping de cada producto usando la herramienta Pro del Web MCP web_data_bestbuy_products (que se conecta al Scraper de Best Buy de Bright Data).
  6. Agregó toda la información recuperada en el informe final.

Esto confirma que las herramientas del Web MCP de Bright Data se están utilizando para basar al agente de IA en datos web del mundo real.

¡Et voilà! La integración de Dataiku + Bright Data en un agente de IA funciona a la perfección. Ten en cuenta que esto fue solo un ejemplo. ¡Gracias a la integración con Bright Data, este agente puede manejar muchos otros casos de uso y escenarios!

Next Steps

Para un agente de IA de Dataiku Cloud real y listo para uso empresarial, considera añadir conexiones adicionales de terceros como Slack, Google Drive y otras herramientas de colaboración. Además, considera integrar conexiones de datos con tus bases de datos.

Esto permite que los resultados generados se compartan automáticamente en los flujos de trabajo y sistemas de tu organización. También puedes considerar desplegar tu agente para poder utilizarlo en producción.

Conclusion

En este artículo, viste cómo crear agentes de IA de Dataiku y ampliarlos con acceso web al mundo real usando el Web MCP de Bright Data. En particular, viste cómo y por qué integrar un agente de Dataiku con las herramientas del Web MCP para basar sus resultados en datos web en vivo y verificables.

Esta integración lleva los agentes de Dataiku al siguiente nivel. Les permite buscar en la web, descubrir nuevas fuentes de forma autónoma, extraer datos estructurados e interactuar con sitios web del mundo real en tiempo real.

¡Regístrate en Bright Data de forma gratuita hoy y comienza a integrar herramientas web listas para IA!