VLA vs. modelos de mundo: por qué importa la estrategia de datos a escala web

Un resumen de la noche de VLA en el web data loft.

Reunimos a ingenieros de Agility Robotics, Tesla, Prometheus y Distill Labs en el Web Data Loft de Bright Data en San Francisco para debatir una pregunta:

¿Qué se necesita realmente para pasar de un modelo de lenguaje a un robot que funcione en el mundo real?

La respuesta fue más concreta de lo que sugiere el hype. El cuello de botella no es solo la arquitectura del modelo, sino el corpus de entrenamiento: qué se recopila, cómo se mezcla, de dónde proviene y si puede curarse a una escala que ningún equipo manual puede igualar.

En el panel participaron Sri y Ahmed de Agility Robotics, Ankur, ingeniero de ML en robótica que hablaba a título personal, Daniel de Prometheus, anteriormente en 1X y Waymo, y Jacek, cofundador de Distill Labs. La conversación fue moderada por Adam de HackerSquad y el Builders Collective.

A continuación se presentan las cinco conclusiones clave para quienes desarrollan un modelo Vision-Language-Action, un modelo de mundo o el pipeline de datos detrás de uno.

1. Un VLA es un VLM con un cabezal de acción, y su generalización proviene del preentrenamiento a escala web

La definición de trabajo del panel era simple: un VLA comienza como un modelo visión-lenguaje entrenado con texto e imágenes a escala de internet, en tareas como subtitulado, segmentación y comprensión de objetos. Luego se añade un componente de acción y se ajusta con datos robóticos.

Esa distinción importa. Los datos del robot enseñan la ejecución. El preentrenamiento a escala web enseña al modelo cómo es el mundo.

Por eso un VLA puede a veces tomar un objeto para el que nunca fue entrenado explícitamente. La generalización no proviene solo de un pequeño conjunto de demostraciones de teloperación. Proviene de una amplia exposición visual y semántica antes de que el robot entre en escena.

Si tu corpus de preentrenamiento es limitado, ninguna cantidad de costosos datos de teloperación recupera completamente la generalización que omitiste.

“Está entrenado con datos a escala de internet en texto e imágenes… luego ajustas el VLM con datos robóticos y obtienes un modelo visión-lenguaje-acción. Lo bueno es que tiene mejor generalización: si lo entrenas para tomar un objeto, puedes pedirle que tome otro diferente, porque ha visto cosas similares.”
— Ankur, ingeniero de ML en robótica, hablando a título personal. Ver en 9:59 →

📖 Lectura relacionada: ¿Qué es un modelo Vision-Language (VLA)? · Las mejores bibliotecas de IA para robótica · Los modelos fundacionales explicados

2. Visión, lenguaje y acción convergen en un único espacio de tokens

Los VLA modernos se parecen cada vez más a los LLM en un aspecto importante: predicen el siguiente token.

Ese token puede ser una palabra, un parche de imagen o un comando de control en espacio de articulaciones. Como explicó Jacek, cofundador de Distill Labs, la conexión con los agentes de software es directa. Un LLM llama a herramientas mediante API. Un VLA llama a herramientas físicas. El entorno cambia de “llamar a un endpoint” a “tomar la taza”, pero el patrón subyacente es similar.

La implicación es poderosa: cualquier modalidad que pueda tokenizarse puede formar parte del mismo espacio de entrenamiento. Video web, grabaciones egocéntricas, demostraciones humanas, teloperación y datos de robot en política propia pueden contribuir a una representación compartida.

La restricción pasa entonces de “¿puede el modelo usar esto?” a “¿podemos obtener los ejemplos correctos a la escala correcta?”

“Puedes pensar en tu espacio de acción como llamadas a funciones para LLM… lo desglosas así y no es diferente de lo que la gente construye para el mundo no físico, agentes que lanzan subagentes en un entorno que expone herramientas. Ahora el entorno es más físico. Eso es lo que lo hace poderoso, porque puedes apoyarte en datos de entrenamiento web para obtener un buen punto de partida.”
— Jacek, cofundador, Distill Labs. Ver en 15:14 →

📖 Lectura relacionada: Tokenización explicada · Dentro del stack tecnológico de agentes de IA · Cómo construir agentes de IA: hoja de ruta completa

3. Los VLA y los modelos de mundo necesitan datos distintos; confundirlos es costoso

Una de las distinciones más agudas de la noche fue entre el entrenamiento de VLA y el de modelos de mundo.

Como planteó Ankur, un VLA es en gran medida un problema de aprendizaje por imitación. Se necesitan trayectorias limpias, exitosas y de alta calidad. Las malas demostraciones pueden perjudicar.

Un modelo de mundo es diferente. Necesita predecir qué sucede a continuación dado una acción, lo que significa que debe comprender no solo los resultados exitosos, sino también los errores, casos límite y fallos. Si se quiere usar un modelo de mundo para planificación o como simulador aprendido para aprendizaje por refuerzo, debe representar todo el rango de futuros posibles.

Daniel, ingeniero en Prometheus que anteriormente lideró el trabajo de modelos de mundo en 1X, explicó por qué esto es difícil. Muchos modelos de mundo actuales están sesgados hacia resultados exitosos. Cuando se les muestra una trayectoria a punto de fallar, pueden alucinar una recuperación en lugar de modelar el error. En robótica, eso es especialmente peligroso. El modelo debe ser controlable por acción precisamente en los momentos donde el contacto, el agarre y el fallo son más probables.

La conclusión: los “datos de robótica” no son un cubo genérico. Las políticas de imitación y los modelos de mundo requieren corpus deliberadamente distintos.

“Realmente quieres un modelo de mundo que sea muy controlable por acción… el momento decisivo cuando estás agarrando un objeto. Si hay lagunas ahí, es una señal muy mala.”
— Daniel, Prometheus, anteriormente en 1X. Ver en 35:36 →

📖 Lectura relacionada: ¿Qué es el entrenamiento de modelos de IA? · Alucinación de IA explicada · Conjuntos de datos de robótica

4. La jerarquía de datos es real: los datos web dan amplitud, los datos de robot dan control

Ahmed, ingeniero en Agility Robotics, estableció una jerarquía clara de señales.

Los datos de teloperación contienen la información de control más sólida porque incluyen el estado completo del robot. Las demostraciones humanas y el video egocéntrico llevan menos señal de control directo. El video web lleva la menor en la capa de control de bajo nivel.

Pero eso no hace que los datos web sean menos importantes. Hace que su rol sea diferente.

El video a escala web enseña semántica, contexto, estructura de tareas, diversidad de objetos y conocimiento general del mundo. Ayuda al modelo a entender cómo son las habitaciones, herramientas, personas, objetos y metas en una enorme variedad. Lo que no enseña bien es la física detallada de un cuerpo robótico específico ejecutando una acción concreta.

Ankur ofreció la analogía más clara: puedes ver todos los videos de Messi o Ronaldo jamás grabados y entender el fútbol profundamente, pero aún no puedes jugar sin practicar. Los datos web enseñan el juego. Los datos en el robot enseñan al cuerpo.

La conclusión práctica sobre el presupuesto de datos surgió del mismo intercambio: una hora de datos web puede aportar aproximadamente el valor transferible de cinco minutos de datos de teloperación. Los datos web no reemplazan la teleop, pero un preentrenamiento sólido a escala web puede reducir la cantidad de costosos datos de robot necesarios para alcanzar una ejecución fiable.

“Podemos ver muchos videos de fútbol de Messi o Ronaldo, pero hasta que no practiquemos nosotros mismos no podremos jugar. El entendimiento de la tarea lo obtenemos de los datos web. Para ejecutarla realmente, necesitamos datos en el robot… quizás una hora de datos web equivale a cinco minutos de datos de teleop.”
— Ankur, ingeniero de ML en robótica, hablando a título personal. Ver en 1:01:09 →

📖 Lectura relacionada: Datos para IA en video · Conjunto de datos de videos de YouTube · Conjuntos de datos de audio para IA · Conjuntos de datos de imágenes

5. Aún no hay leyes de escalado fiables, por lo que la velocidad de curación se convierte en la ventaja

Para los LLM, la industria cuenta con las leyes de escalado de Kaplan y Chinchilla. Para los VLA y modelos de mundo, Daniel fue directo: la robótica aún no ha llegado ahí.

Los equipos aún no pueden predecir de forma fiable el rendimiento del robot como función limpia de tokens web, horas de teleop, datos de despliegue, cómputo o tamaño del modelo. Parte del desafío es que el aprendizaje por imitación y el modelado del mundo usan señales de supervisión diferentes. Otro es que la métrica que importa es el éxito en la tarea final, no la pérdida de preentrenamiento.

Daniel también trazó un contraste útil con la simulación de vehículos autónomos. En conducción autónoma, la simulación suele detenerse cuando ocurre un contacto. En robótica, el contacto es donde comienza la verdadera complejidad. Agarrar, empujar, deslizar, deformar, colisionar y recuperarse no son casos límite. Son la tarea en sí.

Hasta que emerjan mejores leyes de escalado, la ventaja la tienen los equipos que pueden encontrar y curar los ejemplos correctos más rápido: escenas específicas, familias de tareas, interacciones con objetos, fallos y momentos con mucho contacto. Eso no es solo un desafío de modelado. Es un desafío de descubrimiento y de pipeline de datos.

“Responder las leyes de escalado respecto a conteos de flops o tokens es ahora común para los LLM, Kaplan et al., las leyes de escalado de Chinchilla. No estamos realmente haciendo esas preguntas para comparar científicamente VLAs y modelos de mundo hoy… creo que la respuesta es que aún no hemos llegado ahí, y realmente deberíamos llegar.”
— Daniel, Prometheus, anteriormente en 1X y Waymo. Ver en 54:35 →

📖 Lectura relacionada: Descubrimiento de datos · Los mejores proveedores de datos de entrenamiento para IA · Datos de entrenamiento para LLM

Qué significa esto para tu estrategia de datos en robótica

El panel convergió en una conclusión clara:

Los datos a escala web dan a los robots una comprensión amplia del mundo. Los datos en el robot les enseñan cómo actuar en él. Cuanto mejor sea tu corpus de preentrenamiento, menos costosos datos de robot necesitas para alcanzar una ejecución fiable.

Actuar sobre eso requiere tres capacidades que la mayoría de los equipos subestiman:

🌐 Extracción a escala web

Recopilación de video, imagen y audio a escala de petabytes desde la web abierta, no solo conjuntos de datos académicos congelados con taxonomías desactualizadas. Consulta la infraestructura de recopilación de datos a escala web de Bright Data y las soluciones de datos personalizadas.

🔍 Descubrimiento visual más allá de la búsqueda por palabras clave

La diversidad de tareas más valiosa a menudo aparece en escenas que nunca se describen en un título, etiqueta o subtítulo. La búsqueda por palabras clave pierde gran parte de la cola larga. Explora el descubrimiento visual y semántico mediante la API Discover.

⚖️ Procedencia defendible

Los modelos de texto se entrenan con billones de tokens. Los VLA se entrenan con billones de fotogramas. Cada fotograma puede plantear una cuestión de licencia y procedencia, y el despliegue real de robots eleva las apuestas. Más información en nuestro Centro de confianza y en nuestras directrices de recopilación ética de datos.

Los modelos convergen. El diferenciador está siendo el corpus: qué tan amplio es, qué tan relevante es y si puedes defender de dónde proviene.

¿Construyendo un VLA o un modelo de mundo?

Habla con nuestro equipo → sobre cómo descubrir y obtener video de entrenamiento a escala web.

Conoce más sobre Bright Data para IA, explora nuestra oferta de datos de video para VLA o navega por nuestros conjuntos de datos listos para usar para robótica, visión por computadora y entrenamiento multimodal.

Contactar ventas Prueba gratuita

Los VLA y los modelos de mundo necesitan datos a escala web. Solo que no los mismos datos