Evento de scraping del año

ScrapeCon 2024

El futuro de la recopilación de datos, hoy

¿Te perdiste ScrapeCon? ¡No te preocupes, te lo contamos todo!

ScrapeCon Recap: Watch Now

El estado de los datos web públicos

Los datos web se utilizan en todas partes. Están impulsando las innovaciones en IA y dando forma a las empresas modernas en casi todos los sectores. Pero la naturaleza pública de los datos web se ve constantemente cuestionada. A medida que las grandes tecnológicas acaparan cada vez más este activo y los distintos reguladores adoptan enfoques opuestos, ¿estamos a punto de que los datos públicos se conviertan en un tesoro privado?

Or Lenchner, director ejecutivo de Bright Data, inaugura la conferencia analizando el estado de la recopilación de datos web en 2024 y más allá, arrojando luz sobre los retos actuales —y las oportunidades— para el crecimiento de las operaciones de Scraping web. En esta sesión, trataremos: – ¿Cómo está configurando el dominio de las grandes tecnológicas la accesibilidad y la utilización de los datos web? – En un panorama de enfoques regulatorios contradictorios, ¿cómo afectan estos dilemas a la trayectoria de los datos públicos? – ¿Cómo pueden las operaciones de scraping adaptarse y prosperar en medio de retos en constante evolución?

Scraping nativo en la nube simplificado

Descubra el futuro del Scraping web basado en la nube en esta demostración exclusiva del producto, en la que se presentan las últimas herramientas de la plataforma Bright Data.

Descubra cómo crear y mantener scrapers que se integran a la perfección con una infraestructura de autoescalado y tecnología de desbloqueo. Elimine la molestia de gestionar tareas complejas de scraping y escalado, y céntrese en crear soluciones empresariales eficaces. Una cita ineludible para los profesionales que buscan operaciones de scraping eficientes y optimizadas. En esta sesión, descubrirá: – ¿Cómo combina un modelo híbrido las ventajas del scraping local y basado en la nube? – ¿Cómo mejoran las API de scraping la escalabilidad y equilibran la fiabilidad y la rentabilidad? – ¿Cómo garantizar que sus Scrapers se construyan de forma preparada para el futuro y que minimicen el mantenimiento?

Descifrando estrategias de scraping: ¿crear, comprar o API?

Determina el mejor enfoque para tus operaciones de scraping, ya sea creando un Scraper desde cero, comprando un Conjunto de datos ya preparado o utilizando API de scraping.

Explora las herramientas óptimas para tu pila tecnológica, evalúa cuándo ciertas tecnologías podrían ser excesivas y comprende el panorama de las metodologías de scraping actuales. Esta sesión proporciona un marco de decisión claro para cada escenario de scraping, asegurando que tomes decisiones informadas para optimizar tus ScrapeOps. En esta sesión, descubrirás: – ¿Qué es ScrapeOps y cómo puede ayudar a que su recopilación de datos web sea más eficiente, estable y libre de riesgos? – ¿Cómo seleccionar e integrar las herramientas óptimas en su pila tecnológica, mejorando la eficiencia de sus proyectos de scraping? – ¿Por qué simplificar su operación de scraping puede suponer un cambio radical para su negocio?

El futuro de los datos para IA: equilibrar los retos legales y operativos

Profundice en los retos legales y operativos a los que se enfrentan los desarrolladores al gestionar la recopilación de datos web para la IA.

Aprenda marcos prácticos que permiten a los equipos de desarrollo tomar decisiones informadas, logrando el equilibrio adecuado entre el cumplimiento legal y la eficiencia operativa. Tanto si es un desarrollador experimentado como si es nuevo en el Scraping web, obtenga información valiosa para dirigir sus proyectos de IA con confianza. En esta sesión, descubrirás: – ¿Cómo puede la recopilación de datos web abordar y mitigar los posibles sesgos en los datos? – ¿Qué aspectos legales hay que tener en cuenta al entrenar modelos de IA utilizando datos recopilados de la web? – ¿Cómo pueden los equipos garantizar el cumplimiento de las normativas de privacidad en la recopilación de datos diversos? – ¿Qué herramientas o marcos han demostrado ser eficaces para mantener la eficiencia operativa?

De los conocimientos basados en IA a la formación de modelos de lenguaje grande (LLM)

Embárcate en un viaje práctico desde la creación de Conjuntos de datos hasta el aprovechamiento de los conocimientos impulsados por la IA.

Únase a nosotros mientras le guiamos en la selección de un conjunto de datos adaptado a sus objetivos de IA, garantizando la precisión mediante reglas y validaciones personalizadas, y mostrando un caso práctico real de utilización de conjuntos de datos. Tanto si es principiante como si tiene experiencia, esta guía paso a paso mejorará su dominio de los conjuntos de datos para IA. En esta sesión práctica, trataremos: – Selección de conjuntos de datos: elija conjuntos de datos alineados con sus objetivos de IA. – Garantía de precisión: aplique reglas, tipos de datos y validaciones personalizadas para garantizar la integridad del conjunto de datos. – Aplicación en el mundo real: un caso práctico sobre el uso de conjuntos de datos. – Integración con Snowflake: integre conjuntos de datos con Snowflake de forma eficiente. – Obtención de información: extraiga información basada en IA para casos de uso específicos. – Entrenamiento de LLM: introduzca datos estructurados en modelos LLM para un entrenamiento óptimo.

Un plan para crear un conjunto de datos fiable

Crear un conjunto de datos fiable es mucho más que simplemente recopilar datos; se trata de garantizar su calidad, estructura y adaptabilidad.

Descubra metodologías y estrategias avanzadas para seleccionar meticulosamente conjuntos de datos, incorporando la creación de esquemas impulsada por IA para una organización y eficiencia óptimas. En esta sesión, trataremos: – Creación de esquemas impulsada por IA: definir la estructura de datos, la configuración y los parámetros. – Revisión de muestras: un enfoque sistemático para revisar muestras de datos. – Actualización y exportación de Conjuntos de datos: técnicas para actualizar Conjuntos de datos y diversos métodos de exportación. – Validación de datos: establecer reglas para garantizar la precisión y la coherencia de los datos. – Adaptación a los cambios: estrategias para ajustarse a los cambios estructurales del sitio web. – Técnicas de reanálisis: métodos para volver a analizar y ajustar los datos con el fin de mejorar la flexibilidad.

El Manual ejecutivo

Asegúrese un asiento en primera fila para un debate en profundidad, directo y valioso entre altos ejecutivos tecnológicos de primer nivel.

Compartirán sus retos operativos y soluciones relacionadas con la recopilación de datos a gran escala. Descubra cómo las organizaciones líderes abordan los cambios normativos, los dilemas éticos y el impacto de la IA en sus procesos. Guiada por nuestro director de atención al cliente, esta sesión proporciona a los ejecutivos técnicos y a los responsables de I+D conocimientos prácticos y estrategias probadas para mejorar sus operaciones de recopilación de datos web públicos. Profundicemos en las preguntas clave del panel: – ¿Por qué son los datos web fundamentales para su organización y cómo los utiliza para obtener ventajas operativas y competitivas? – ¿Cómo funciona su operación de recopilación de datos web y cómo ha evolucionado con el tiempo? ¿Cuál es su opinión sobre las soluciones internas frente a las externalizadas? – ¿Cuál es su marco de toma de decisiones en relación con los recursos de recopilación de datos web? (teniendo en cuenta el presupuesto total, los costes de infraestructura, el personal, las herramientas, el control de calidad de los datos, etc.) – ¿Cuáles son los principales retos a los que se enfrenta actualmente en la recopilación de datos? – ¿Cómo integra o yuxtapone los datos públicos con otras fuentes de datos? – ¿Se ha enfrentado a algún reto u obstáculo concreto durante su trayectoria en la recopilación de datos web? En caso afirmativo, ¿cómo los abordó? – ¿Existen prácticas recomendadas o estrategias que le hayan resultado eficaces para garantizar la máxima calidad y relevancia de los datos web que recopila?

De los clics a las capturas: dominar las interacciones del navegador para los Scrapers

Sumérgete en las últimas innovaciones en automatización de navegadores para proyectos de scraping a gran escala.

Esta sesión es imprescindible para los desarrolladores que llevan a cabo proyectos de scraping que requieren interacciones con el navegador. En esta sesión práctica, aprenderás: – Descripción general de la infraestructura: comprender los componentes del scraping en varios pasos, incluyendo la configuración de servidores, la configuración de navegadores y la gestión de Proxies. – Demostraciones de API en directo: mejora tus Scrapers de Puppeteer, Playwright y Selenium; aprende a manejar múltiples navegadores. – Aplicación práctica: crea un script de Puppeteer para comercio electrónico, utiliza Node.js y realiza el Parseo de HTML con Cheerio. – Depuración y gestión de costes: utiliza Chrome DevTools para la depuración y aprende estrategias para gestionar los costes operativos.

Más allá de las prohibiciones de IP y los CAPTCHAs

Profundice en los últimos retos que plantean las tecnologías avanzadas contra los bots y en las últimas técnicas para superarlos.

Sea testigo de la creación y resolución de problemas de Scrapers en tiempo real, con demostraciones sobre cómo optimizar el rendimiento de la red y superar los retos con IPs estáticas. Evalúe las fortalezas y debilidades de diversas redes de Proxy y descubra potentes herramientas diseñadas para hacer frente a los bloqueos de sitios web más difíciles. Diseñada para ingenieros, esta sesión combina a la perfección conocimientos estratégicos con programación práctica y demostraciones en directo. Volvamos a lo básico: Tipos de bloqueos: comprenda los diferentes tipos de bloqueos y cómo funcionan. Bloqueos sencillos y comunes: profundice en las prohibiciones de IP y los límites de velocidad, y aprenda a sortearlos rápidamente. Bloqueos avanzados: explore los CAPTCHA, el software antibots, Cloudflare y otros retos, junto con sus soluciones. Elegir el producto de Proxy adecuado: evalúa las ventajas y desventajas de diversas redes de Proxy. Programación en directo: creación y corrección de Scrapers Demostración de un rastreo único frente a un lote de 1000: observa cómo se comportan las diferentes redes en diversos escenarios. Utilizando node.js, enviaremos una única solicitud mediante Proxies de centro de datos y residenciales, demostrando las tasas de éxito de ambas redes. También destacaremos los retos a los que nos enfrentamos al utilizar IPs estáticas, y cómo incluso las IPs rotativas pueden encontrar problemas al enviar 1000 solicitudes. Herramientas para bloqueos de sitios web exóticos y difíciles: Descubre herramientas que abordan bloqueos de sitios web desafiantes. Scraping de SERP. Demostración en directo: Sé testigo de la transición de múltiples errores a una tasa de éxito del 100 %. Demostración de prueba de Cloudflare.

Desde la solicitud inicial hasta el análisis final

Únete a una dinámica mesa redonda en directo con los principales desarrolladores y profesionales de datos del sector, que analizarán todo el espectro de los proyectos de datos web, combinando conocimientos de expertos, estrategias prácticas y una pizca de humor de desarrolladores.

Puntos clave del debate: – Fundamentos de la recopilación de datos web: sumérgete en los mejores lenguajes, marcos y herramientas para un Scraping web eficiente. – Dominio del desbloqueo de sitios web: aprende técnicas de Scraping web resilientes, comprende los retos y descubre soluciones alternativas probadas. – Análisis de datos en profundidad: consejos sobre optimización de bases de datos, preparación de datos y narración de datos convincente. – Técnicas impulsadas por IA al descubierto: integra la IA en el scraping y mejora el análisis de datos con herramientas de IA de vanguardia.

Observaciones finales

Los datos web son el motor que impulsa las innovaciones en IA y da forma a las empresas modernas. Pero con las grandes tecnológicas acaparando cada vez más este activo y los distintos reguladores adoptando enfoques opuestos, ¿estamos a punto de que los datos públicos se conviertan en un tesoro privado? Nuestro director general inaugura la conferencia analizando en profundidad el estado de la recopilación de datos web en 2023/2024, arrojando luz sobre los retos y oportunidades actuales.

En esta sesión, descubrirás: – ¿Podré extraer datos en 2024 de la misma manera (o podré hacerlo en absoluto)? – ¿Cómo abordar la recopilación de datos en 2024, a medida que evoluciona la normativa pertinente? – ¿Qué tecnologías y productos revolucionarios podemos esperar en 2024 que redefinirán las operaciones de extracción de datos? Acompañarán a Or en su sesión Anthony Goldbloom, cofundador y antiguo director ejecutivo de Kaggle.com, la comunidad de IA y ML más grande del mundo, y Jo Levy, socia de The Norton Law Firm y antigua vicepresidenta y consejera general para Asia-Pacífico y Japón de Intel Corporation. Juntos, profundizarán en el futuro de los modelos de lenguaje grandes (LLM) y analizarán el complejo panorama legal que rodea al scraping de datos en la era de los modelos de IA fundamentales como ChatGPT.

Ponentes

Conoce a las mentes detrás del micrófono.

Smiling man in black shirt with blue background.
O Lenchner

Director general, Bright Data

Woman smiling with blue, starry background.
Jo Levy

Socio del bufete Norton Law
, bufete Norton Law

Man in glasses with blue background.
Ganesh Kumar

Director de Diseño de Productos y de la Experiencia del Usuario (
), Rakuten

Man smiling, dark shirt, abstract blue background.
Aviv Besinsky

Director de productos Proxy,
Bright Data

Smiling woman with blonde hair, cosmic background.
Mariya Sha

Fundador y desarrollador de software
, Python Simplified

Smiling man with dark shirt, blue abstract background.
Omri Orgad

CCO, Bright Data

A bearded man smiling against dark abstract background.
Upendra Dev Singh

Vicepresidente sénior de Tecnología de
, Ixigo

Person with a dark blue background, wearing a lanyard.
Anthony Goldbloom

Vicepresidente sénior de Tecnología de
, Ixigo

Smiling woman against a blue, cosmic background.
Lior Levhar

Conjuntos de datos Experts TL,
Bright Data

Smiling woman with long blond hair against blue background.
Tiff Janzen

Fundadora y desarrolladora, defensora de
, TiffInTech

Man smiling with a cosmic background.
Lewis Menelaws

Vicepresidente de Tecnología,
Coding With Lewis

Man with dark hair and beard on blue background.
Itamar Abramovich

Director de Productos de Datos,
Bright Data

Smiling woman in white top with blue background.
Ghita

Fundador y director ejecutivo, Tech Bible

Man with gray hair and beard, blue background.
Itzhak Yosef Friedman

Director de I+D, Bright Data

Bald man in glasses with a blue background.
Alex Fierberg

Fundador y youtuber,
Alex The Analyst

Smiling man with dark background, blue light rays.
Ilya Kolker

Especialista en posventa,
Bright Data

Smiling man in front of blue abstract background.
Tim Ru

Director de productos Proxy,
Bright Data

Man in checkered shirt, futuristic background.
Michael Beygelman

Fundador, Claro Analytics

Smiling man with short hair and black shirt.
Nir Borenshtein

Director de Operaciones, Bright Data

Smiling man with glasses and patterned shirt.
Ken Jee

Los vecinos más cercanos de Ken

Thank You for Being a Part of Our Event!

Disfruta de este vídeo que recoge los momentos más destacados de nuestro evento.

Puede que ScrapeCon haya terminado, pero la conversación sigue viva.