En esta guía aprenderás lo siguiente:
- Qué es Dify y por qué utilizarlo.
- La razón por la que debería integrarlo con un plugin de scraping todo en uno.
- Ventajas de integrar Dify con el plugin de scraping Bright Data.
- Un tutorial paso a paso para crear un flujo de trabajo de raspado de Dify.
Sumerjámonos.
Dify: El poder del desarrollo de IA de bajo código
Dify es una plataforma de desarrollo de aplicaciones LLM de código abierto. Funciona como una solución LLM-ops que simplifica la creación de aplicaciones impulsadas por IA.
Más concretamente, ayuda a los desarrolladores a crear y poner en marcha aplicaciones de IA agéntica listas para usar, proporcionando:
- Generador visual de flujos de trabajo: Diseñe procesos de IA de varios pasos mediante una interfaz de arrastrar y soltar. Puedes encadenar diferentes modelos, herramientas y lógicas sin complicarte con código repetitivo.
- Agnosticismo de modelos: Se integra con una amplia gama de LLM, desde modelos propietarios como la serie GPT de OpenAI hasta diversas alternativas de código abierto. Esto te da la flexibilidad de elegir el mejor para tu caso de uso.
- Backend como servicio (BaaS): Maneje las complejidades de alojar, escalar y gestionar la infraestructura de backend. Esto le permite centrarse en aprovechar las capacidades de la IA en lugar de gestionar la infraestructura subyacente.
- Extensibilidad: Amplíe fácilmente la funcionalidad a través de plugins y herramientas personalizadas de proveedores de terceros. Esto hace que Dify se adapte a una amplia gama de casos de uso.
La necesidad de un plugin dedicado al scraping en Dify
El scraping web a gran escala plantea numerosos retos. Los sitios web utilizan medidas anti-bot que pueden bloquear fácilmente intentos sencillos de recuperación de datos. Por eso, crear y mantener un sistema que supere estos obstáculos es complejo y exige muchos recursos.
Aquí es precisamente donde entra en juego el plugin Bright Data Dify. El plugin se encarga de todas las complejidades subyacentes, desde la rotación de proxy y la gestión de IP hasta la resolución de CAPTCHAs y el análisis sintáctico de datos. En otras palabras, asegura que su agente Dify reciba datos web consistentes y de alta calidad.
En concreto, el plugin Bright Data proporciona estas herramientas:
- Fuentes de datos estructurados: Para obtener datos estructurados y organizados de más de 50 plataformas, como páginas de productos de comercio electrónico o listados inmobiliarios.
- Scrape como markdown: Elimina los anuncios, las barras de navegación y otros elementos no esenciales, y ofrece una versión limpia del texto con formato markdown.
- Herramienta para motores de búsqueda: Realiza consultas directamente en motores de búsqueda como Google, Bing, Yandex y muchos otros. Puede utilizarla para supervisar las clasificaciones de búsqueda de palabras clave específicas, descubrir contenido de la competencia o en flujos de trabajo SERP RAG.
Ventajas de integrar Dify con el plugin Bright Data
Al conectar las capacidades de orquestación de IA de Dify con las de raspado de Bright Data, se desbloquea esta funcionalidad:
- Acceso a datos en tiempo real: En lugar de basarse en datos obsoletos, su agente de IA puede consultar la web en directo para obtener información actualizada al minuto. Esto garantiza que sus aplicaciones de IA funcionen con los datos más actuales disponibles.
- Automatice investigaciones y análisis complejos: Al alimentar los datos directamente en un LLM dentro de un flujo de trabajo de Dify, puede automatizar tareas que de otro modo requerirían horas de trabajo manual. Por ejemplo, podría crear un flujo de trabajo RAG para supervisar una lista de productos de la competencia en un sitio de comercio electrónico.
- Simplificar la complejidad técnica: El scraping web no es fácil, ya que los sitios emplean sofisticadas técnicas de bloqueo anti-scraping. El plugin Bright Data evita los bloqueos por usted. Todo eso, mientras Dify proporciona la interfaz sencilla para aprovechar este poder.
- Versatilidad para diversos casos de uso: El plugin te equipa con múltiples herramientas, incluyendo la obtención de datos estructurados, el scraping de cualquier página a markdown limpio, y la realización de consultas a motores de búsqueda. Eso hace que la integración de Dify + Bright Data se adapte a varios casos de uso.
Integrando Dify con Bright Data para Resumir Productos: Tutorial Paso a Paso
Es hora de ir a través de un tutorial paso a paso para aprender a utilizar la integración entre Dify y Bright Data.
El objetivo del flujo de trabajo que va a crear es dar un producto de Amazon como entrada y recibir su resumen. El producto que utilizarás es de Amazon y es un Apple AirTag:
Para lograr el objetivo de raspado de IA, construirá un flujo de trabajo de cuatro etapas conectando diferentes nodos. Cada nodo tiene un trabajo específico:
- Un nodo “Inicio” para definir la variable de entrada, que es la URL de la página de producto de Amazon.
- Un nodo “Structured Data Feeds” tomará esa URL y raspará su contenido, extrayendo todos los datos estructurados de la página de Amazon.
- Un nodo “LLM” para procesar los datos raspados. Le dará instrucciones específicas para generar el resumen del producto.
- Un nodo “Fin” para presentar el texto resumido generado por el LLM.
Todo este proceso de raspado de IA en cuatro pasos es completamente visual. Conectarás estos nodos en un flujo sencillo y no tendrás que escribir ni una sola línea de código.
¡Siga las instrucciones para construir su flujo de trabajo Bright Data-powered no-code web scraping AI en Dify!
Requisitos
Para reproducir este tutorial sobre cómo integrar Dify con Bright Data, necesitas:
- Una cuenta de Dify (una cuenta gratuita es suficiente).
- Una clave API de Bright Data.
Si aún no los tienes, utiliza los enlaces anteriores y sigue las instrucciones para configurarlo todo.
Requisitos previos
Para poder utilizar el nodo LLM, primero necesitas configurar la integración LLM en Dify. Para ello, haz clic en la imagen de tu perfil y selecciona la opción “Configuración”:
Se le redirigirá a la página que le permite seleccionar un modelo (la pestaña “Proveedor de modelos”). Por ejemplo, puedes instalar el plugin de proveedor OpenAI:
¡Muy bien! Ahora está listo para iniciar su flujo de trabajo de raspado web de Dify.
Paso 1: Descargue el plugin de Bright Data e intégrelo
Descargue el último paquete del plugin Bright Data desde el repositorio oficial de Dify. A continuación, pulse “PLUGINS” y seleccione la opción “Instalar desde archivo de paquete local”:
Selecciona el archivo local que descargaste antes y haz clic en el botón “Instalar”:
Muy bien. El paquete de integración de Bright Data ya está cargado e instalado en Dify.
Paso 2: Crear una nueva aplicación de Dify
Desde la página principal del espacio de trabajo de Dify, cree una nueva aplicación desde cero seleccionando “Crear desde blanco” como se muestra a continuación:
A continuación, elija el tipo “Flujo de trabajo” y haga clic en “Crear”:
A continuación se muestra cómo será el nuevo flujo de trabajo en blanco:
¡Estupendo! Acaba de crear un nuevo flujo de trabajo de Dify. Es hora de añadir los nodos necesarios para el web scraping.
Paso 3: Configurar nodos para Web Scraping
Ahora, usted puede agregar los nodos a su flujo de trabajo y establecer los parámetros necesarios para el flujo de trabajo de Dify web scraping a través de Bright Data.
Para empezar, haga clic en el nodo “Inicio” y, a continuación, en “CAMPO DE ENTRADA”:
Seleccione “Párrafo” como tipo, y dé un nombre al campo “Nombre de la variable”. Por ejemplo, product_url
. Cambie el valor de “Longitud máxima” para que sea al menos 200. Esto representa la URL de la página de destino a raspar. Tendrá que pasarle una entrada para lanzar el flujo de trabajo.
Confirme pulsando el botón “Guardar”:
Perfecto. El nodo “Inicio” está correctamente configurado.
Continúe haciendo clic en el signo “+” del nodo “Inicio”. Seleccione “Herramientas” > “Bright Data Web Scraper” > “Fuentes de datos estructurados”:
El nodo de Bright Data actúa como el puente que conecta su flujo de trabajo de Dify con la [infraestructura de Bright Data AI](
/ai). Le da a su agente de raspado de IA la capacidad de raspar la información que necesita de la web.
Seleccionando la herramienta “Structured Data Feeds”, convertirá una desordenada página de producto de Amazon en una salida JSON estructurada con campos de datos predecibles.
Ahora, haga clic en “Autorizar” para introducir su token de API de Bright Data:
Seleccione product_url
como variable de entrada. De esta forma, el nodo “Inicio” pasará el valor real de la URL del producto como entrada del nodo Bright Data.
Para ello, escriba “/” en el campo “URL de destino”, y le mostrará una lista de variables disponibles. Añada también una descripción en el campo “Descripción de la solicitud de datos”:
Muy bien. El nodo Bright Data está configurado. Puede pasar al siguiente nodo.
Haz clic en el signo “+” y añade un nodo LLM:
En la sección “MODELO”, seleccione “Configurar modelo” y seleccione un modelo LLM de la lista:
En la sección “SISTEMA”, añada un mensaje como el siguiente:
You are an expert e-commerce analyst. Based on the following structured data from an Amazon product page, write a concise and helpful summary for a potential buyer.
Include the following:
- Product name.
- A one-sentence summary.
- 3-5 key features in a bulleted list.
- The overall star rating and number of reviews.
- A brief concluding sentence about who this product is for.
Data:
{{Structure_Data_Feeds.text}}
Este mensaje indica al LLM que actúe como un analista de comercio electrónico con el objetivo de crear un resumen del producto extraído. También pide que se incluyan detalles específicos, como el nombre del producto y algunas características clave. Observe que incluye el resultado de texto del nodo del plugin Bright Data al final.
Este es el aspecto que tendrá la sección rellenada:
En la sección “Datos” de prompt, añada el texto
como variable de entrada. Esto permitirá al LLM utilizar el contenido que el nodo Bright Data ha recuperado de la URL de destino. Si hace clic en “/”, obtendrá la lista de variables disponibles que puede seleccionar.
Muy bien. Ahora puede añadir el último nodo al flujo de trabajo.
La salida del flujo de trabajo puede obtenerse añadiendo un nodo “Fin”:
La variable de salida debe ser una cadena procedente del nodo LLM. Para ello, haga clic en la sección “VARIABLE DE SALIDA” y seleccione “texto” en “LLM”:
Asombroso. Su flujo de trabajo está correctamente configurado. Ahora está listo para ejecutarlo.
Paso 4: Ejecutar el flujo de trabajo
A continuación se muestra el flujo de trabajo de web scraping en Dify a través del plugin Bright Data:
Como puede ver, sólo consta de cuatro nodos, tal y como se anticipó en la introducción de este capítulo. Además, ¡no has tenido que escribir ni una sola línea de código para lograr el objetivo!
Para ejecutar el flujo de trabajo, haga clic en “Ejecutar”. En este punto, es necesario añadir la URL del producto de Amazon en el campo “product_url”. A continuación, haga clic en “Start Run” para iniciar el flujo de trabajo de raspado web de Dify:
El resultado estará disponible en la pestaña “Resultado”:
A continuación se muestra el resultado en forma de texto:
**Product Name:** Apple AirTag
Stay connected to your valuables with the Apple AirTag — a small, stylish tracker designed to help you locate personal items like keys, wallets, luggage, and even pets with ease using your iPhone or iPad.
**Key Features:**
- Seamless one-tap setup with iPhone or iPad via the Find My app.
- Precision Finding with Ultra Wideband technology (on compatible iPhone models) for accurate item location.
- Can be shared with up to 5 people, great for tracking shared items like keys or bags.
- Loud built-in speaker to help you locate your item or use voice commands with Siri.
- Water and dust resistant (IP67 rated) with a replaceable battery lasting over a year.
**Rating:** ⭐ 4.6 out of 5 stars, based on 32,227 customer reviews
This is an ideal purchase for Apple users who frequently misplace items or need a smart, subtle way to keep tabs on essentials — from travel gear to curious pets.
Tal y como se pidió, el LLM informó de lo que pediste en el aviso:
- Resumen del producto en una frase.
- 5 características clave.
- La calificación.
- Una frase concluyente, que diga a quién va dirigido este producto.
Si alguna vez has intentado hacer scraping en grandes sitios de comercio electrónico como Amazon, sabes lo difícil que es:
Aquí es donde la integración de Bright Data marca la diferencia. Gestiona todas las complejas medidas anti-scraping entre bastidores, asegurándose de que el proceso de recuperación de datos funciona como se espera.
¡Et voilà! Ha completado con éxito su primer proyecto de integración de Dify con Bright Data.
Conclusión
En este artículo, usted aprendió a usar Dify para construir un flujo de trabajo de AI scraping sin código. Esto no hubiera sido posible sin el plugin Bright Data Dify. Como se muestra aquí, ese plugin expone varias herramientas avanzadas para el raspado web dentro de los flujos de trabajo de IA.
Ahora bien, uno de los principales retos a la hora de crear un flujo de trabajo de scraping fiable para sus agentes de IA es tener acceso a datos web de alta calidad. Esto requiere herramientas para recuperar, validar y transformar el contenido web, que es exactamente para lo que está diseñada la infraestructura de IA de Bright Data.
Cree una cuenta gratuita en Bright Data y empiece hoy mismo a experimentar con nuestras herramientas de datos preparadas para la IA.