Aprendizaje cero: Cómo aprende la IA sin datos de entrenamiento

Intenta hablar con un LLM sobre algo que nunca ha visto. ¿Puede entenderlo? Esto suele considerarse la verdadera prueba de inteligencia. Cuando un modelo utiliza la inferencia y las generalizaciones para aprender sin datos de entrenamiento, esto se denomina aprendizaje cero.

Tradicionalmente, los modelos de IA necesitan grandes conjuntos de datos con ejemplos etiquetados. El aprendizaje de disparo cero espera que un modelo aprenda sobre la marcha sin datos de entrenamiento. El aprendizaje cero no sustituye al entrenamiento estándar. Se utiliza para llevar los modelos preentrenados al siguiente nivel. Puedes lanzar una IA a algo que nunca ha visto y la IA seguirá funcionando bien.

Siga con nosotros y aprenda los entresijos del aprendizaje sin disparos.

¿Dónde se utiliza Zero-Shot Learning?

¿Alguna vez ha necesitado que alguien vea su trabajo desde otra perspectiva? Aquí es donde entra en juego el zero-shot. Con el aprendizaje zero-shot, un modelo de IA toma datos, los procesa y te da una opinión sin ningún tipo de formación. Esto produce resultados prometedores en todo tipo de industrias. Cuando le pides a la IA que procese lo desconocido y obtienes resultados, eso es el aprendizaje cero en acción.

Sanidad: Cuando se diagnostican afecciones raras o nunca vistas, los modelos utilizan el disparo cero para diagnosticar afecciones médicas raras o nunca vistas. En estas situaciones, los datos son escasos o incluso inexistentes.
Productos farmacéuticos: Los modelos pueden analizar datos inéditos para predecir la eficacia de compuestos que aún no existen.
Procesamiento del lenguaje natural: Los grandes modelos lingüísticos (LLM) hablan con la gente sin parar, todo el día, todos los días. Cuando surge una nueva jerga, o alguien habla de sus problemas individuales, los modelos utilizan el tiro por cero para hacer inferencias y generalizaciones que harían los humanos normales.
Visión por ordenador y robótica: Es prácticamente imposible entrenar a un modelo en todas las imágenes que puede encontrar en el mundo real. Los modelos reconocen nuevas imágenes y averiguan qué hacer con ellas. Un coche autoconducido se detiene en un cruce que nunca ha visto. Una Roomba ve tus muebles y los evita.
Entretenimiento e industrias creativas: Zero-shot permite a los modelos crear personajes de juego únicos. DALL-E y modelos similares generan piezas de arte únicas que nadie ha visto antes.

El aprendizaje por disparo cero ya se utiliza en todo el mundo. Cuantas más adopciones de IA veamos, más seguirá creciendo el zero-shot.

Tiro Cero frente a otros paradigmas

¿Has trabajado alguna vez en un puesto con una gestión pésima y sin formación real? Si es así, ha utilizado el aprendizaje de tiro cero. El aprendizaje sin disparos forma parte de un paradigma más amplio denominado aprendizaje con “n disparos”. N representa el número de ejemplos etiquetados. El aprendizaje sin disparos implica un entrenamiento previo nulo. El aprendizaje automático tradicional utiliza conjuntos de datos gigantes de entradas etiquetadas.

Aprendizaje único: Un modelo se entrena en datos con una sola muestra etiquetada por clase.
Aprendizaje depocos ejemplos: El modelo se entrena con una pequeña cantidad de ejemplos etiquetados.
Aprendizaje automático tradicional: Con el aprendizaje tradicional, un modelo se entrena en enormes conjuntos de datos con ejemplos etiquetados. Esto es lo opuesto al disparo cero.
Aprendizaje sin disparos: El modelo ve cosas que nunca ha visto ni se le han enseñado antes. Se le lanza a la mezcla y se espera que descubra las cosas y aprenda.

El aprendizaje cero es comparable al aprendizaje sobre la marcha en el mundo real. Tu jefe te mete en un lío y espera que lo resuelvas.

Aprendizaje convencional de tiro cero (ZSL)

¿Buscas una fuente de información inútil para responder a una sola pregunta práctica? Un LLM puede hacerlo por usted. Los LLM son ejemplos clásicos de ZSL convencional. Estos modelos se preentrenan con más datos de los que usted o yo podamos imaginar. Piensa en toda la Wikipedia, cualquier medio social que la empresa considere apropiado, miles de libros… y mucho, mucho más.

Cuando se entrena formalmente a una IA, se le dan una serie de clases. Si queremos entrenar a una IA en caballos, podemos darle fotos y libros sobre caballos. Cuando hacemos esto, creamos una clase: “Caballo”. A continuación, el modelo establece reglas internas y generalizaciones sobre cómo tratar la información relacionada con su clase de caballos.

Una vez que un modelo ha recibido un preentrenamiento adecuado, puede recibir nuevos datos y crear sus propias clases. Si le damos a nuestro modelo entrenado para caballos una foto de una cebra, puede deducir que un caballo con rayas es una cebra. Aunque no haya sido entrenado en cebras, es lo suficientemente inteligente como para crear una nueva clase interna de cebra y empezar a crear reglas sobre cómo tratar a la cebra.

Debido a los grandes requisitos de preentrenamiento, ZSL tiene un coste bastante elevado. Puede que nuestro modelo entienda a las cebras, ¡pero lo hemos entrenado con las de medio mundo para llegar a ellas! Debido al preentrenamiento, ZSL no es muy eficiente. La próxima vez que le preguntes a ChatGPT algo sin sentido, piensa en lo que ha tenido que pasar la máquina para responder a tu simple pregunta.

Aprendizaje generalizado de tiro por cero (GZSL)

GZSL toma los conceptos de ZSL y los simplifica para que sean más eficaces. Con GZSL, utilizamos el caos para simplificar el proceso de aprendizaje. El aprendizaje generalizado a partir de cero mezcla múltiples incógnitas en el proceso de formación. A continuación, el modelo utiliza generalizaciones para crear clases y reglas internas a partir de estas incógnitas.

En lugar de preentrenar nuestro modelo con caballos, ¿por qué no le damos una sola imagen que contenga caballos y una cebra? También podemos darle un poco de texto: “La imagen que te doy contiene varios caballos y una cebra. Una cebra es un caballo con rayas”.

El modelo puede utilizar esta breve descripción y una única imagen para crear tanto una clase caballo como una clase cebra.

Clase Caballo: El modelo creará una clase caballo y almacenará los datos de los caballos no rayados de la imagen.
Clase Cebra: Creará una clase cebra utilizando sólo nuestra breve descripción y el caballo a rayas de la imagen.

Esto reduce drásticamente el tamaño de nuestros datos de entrenamiento. Ahora hemos entrenado nuestro modelo para reconocer varios caballos y una cebra a partir de una sola imagen con algo de texto. Si nuestra imagen media tiene aproximadamente 4kb, entrenar cuatro caballos nos daría un conjunto de datos mínimo de 16kb. Si añadimos algo de caos e incluimos todos los animales en una imagen, nuestro conjunto de datos de entrenamiento es de sólo 4kb. Con GZSL proporcionamos datos más escuetos y de alta calidad para un proceso de entrenamiento más rápido y un modelo más pequeño.

Cómo funciona Zero-Shot Learning

Diseccionemos el cerebro de nuestro hipotético LLM para ver qué ocurre realmente. Sabemos que un modelo recibe datos de entrada. Después, crea nuevas reglas y clases por sí mismo. Comprendamos mejor cómo lo hace.

Etiquetas

El preentrenamiento es como la escuela. El modelo aprende lo básico sobre cómo procesar la información y “pensar”. Cuando termina el preentrenamiento, el modelo ha aprendido de nosotros todo tipo de clases etiquetadas y reglas. Durante esta etapa, proporcionamos al modelo clases y etiquetas. Cuando se gradúa, ya sabe cómo aprender. No hace falta que sigamos dándole de comer como al principio.

Nuestro modelo no espera a que le proporcionemos etiquetas. ¿Recuerdas el ejemplo del caballo y la cebra? El modelo crea las clases y las etiqueta sin nuestra ayuda. Esto nos ahorra un tiempo precioso en el entrenamiento, al tiempo que permite al modelo practicar cierto nivel de autonomía.

Aprendizaje por transferencia

Los modelos hacen inferencias. Cuando nuestro modelo entrenado para el caballo aprenda la cebra, transferirá muchas (si no todas) las reglas existentes de la clase caballo a su nueva clase cebra. El aprendizaje se transfiere de una parte del modelo a la otra.

Imagina que entrenas a un modelo para que extraiga datos de hoteles de Google (puedes aprender a hacerlo manualmente aquí). A continuación, le enseñas a rastrear Booking.com (puedes aprender a hacerlo manualmente aquí). Cuando rastree Booking.com, utilizará su conocimiento de los hoteles de Google para ayudarle a rastrear los nuevos hoteles de Booking.com.

Razonamiento

En el corazón del aprendizaje cero está la capacidad de razonar. Cuando te metiste en aquel terrible trabajo sin formación ni experiencia, ¿cómo sobreviviste? Lo más probable es que lo resolvieras utilizando el razonamiento y el sentido común. Imagina que le damos a nuestro niño de IA un conjunto de datos de “Ver y Decir”. Establecemos una clase y reglas para cada clase. Piensa: “¡La vaca dice mú!”. Crearíamos una clase vaca y escribiríamos la regla de que dice “mú”.

Una vez que nuestra IA ha crecido, no necesitamos hacer esto. Nuestro modelo ve una foto de un pollo con pies de foto malos como “cacareo” o “plumas”. Con estas simples pistas, el modelo preentrenado deduce que se trata de un pollo. A continuación, crea una clase pollo con reglas como “cacarear” y “plumas”. Cuando razona, nuestro modelo utiliza el sentido común y la inteligencia callejera para resolver problemas del mundo real (por muy relacionados con la granja que estén).

Modelos de base preentrenados

En realidad, nuestro modelo empieza de forma muy parecida a la de un recién nacido. Está completamente indefenso y no puede hacer nada por sí mismo. El preentrenamiento es la forma en que nuestro modelo crece para pensar por sí mismo. Antes de que pueda aprender utilizando el tiro por cero, el modelo necesita “aprender a aprender”.

Todos los humanos hacemos esto al crecer. Primero aprendemos a alimentarnos. Después, aprendemos a comer alimentos sólidos y a sentarnos. Alrededor del año, aprendemos a andar y a hablar. En lugar de aprender a andar, hablar y usar el orinal, los modelos de IA empiezan aprendiendo cosas básicas como matemáticas y procesamiento del lenguaje. Después, aprenden a ingerir datos.

Una vez que el modelo sabe cómo procesar los datos, le damos todos los datos que podemos encontrar. Y luego le damos más datos. Con el tiempo, aprende a acceder a sus propias clases internas. Una vez que el modelo puede leer y escribir clases, empezará a hacer generalizaciones que, con el tiempo, se convertirán en razonamientos. Con un preentrenamiento eficaz, los modelos pueden utilizar el tiro por cero para aprender de forma independiente.

Métodos de aprendizaje de tiro por cero

Desde fuera, el aprendizaje sin disparos parece magia. Pero, como cualquier truco de magia, todo es una ilusión. Los modelos de IA dependen de un conjunto muy particular de habilidades. Los datos en bruto se toman y se convierten en respuestas reales que podemos leer o escuchar. Veamos qué ocurre antes de sacar el conejo de la chistera.

Atributos

Nuestro modelo descifra los distintos animales utilizando rasgos o atributos. Los atributos son tan sencillos como parecen. Cuando nuestro modelo observa una imagen con varios animales, utiliza sus rasgos para averiguar de qué animal se trata.

Caballo: Relincho, 4 patas, cascos.
Pollo: Cluck, 2 patas, alas.
Vaca: Moo, 4 patas, pezuñas.

Los atributos permiten a la máquina hacer conjeturas, como haría un humano.

Incrustaciones

Las máquinas no ven los datos como tú y yo. En su lugar, guardan listas numéricas de datos llamadas matrices. Imaginemos que queremos representar los atributos de nuestro caballo, nuestra gallina y nuestra vaca como números.

Animales	Sonido	Piernas	Características
Caballo	Vecino	4	Pezuñas
Pollo	Cluck	2	Alas
Vaca	Moo	4	Pezuñas

Cada fila de esta tabla puede representarse como una lista.

Caballo: [Neigh, 4, Hooves]
Pollos: [Cluck, 2, Wings]
Vaca: [Moo, 4, Hooves]

Sin embargo, las listas anteriores aún no son legibles por las máquinas. Las máquinas destacan cuando entienden números. Para el sonido, codificaremos 1,2 y 3 para representar “relincho”, “cloqueo” y “mugido”. Como sólo tenemos que preocuparnos de dos características (pezuñas y alas), 1 representará las pezuñas y 2 las alas.

Así es como nuestro modelo podría ver esta información.

Caballo: [1, 4, 1]
Pollo: [2, 2, 2]
Vaca: [3, 4, 1]

Al incorporar nuestros datos mediante números, los modelos de IA pueden procesarlos eficazmente para descubrir relaciones y reglas. Esta es la base de sus capacidades de generalización y razonamiento. Más información sobre incrustaciones en ML.

Generativo

Los modelos inventan nuevas clases de la nada. Los métodos generativos permiten al modelo llegar a una conclusión viendo relaciones en los atributos incrustados. Cuando nuestro modelo identifica la cebra sin entrenamiento, esto es generativo. El modelo vio que era un caballo rayado. Entonces generó la conclusión de que un caballo rayado es una cebra.

Si está recopilando datos de hoteles pero no tiene una clasificación, un modelo de IA podría generarla basándose en la información proporcionada. Los modelos de IA utilizan su imaginación para generar nuevos datos. El modelo podría decidir que si una habitación tiene una cama grande y una bañera de hidromasaje, es de 5 estrellas. Esto es increíblemente potente, pero también puede dar lugar a alucinaciones.

Al utilizar métodos generativos, es importante tener cuidado. Es estupendo que un modelo pueda asignar clasificaciones de hoteles. Si le preguntas a tu modelo: “¿Qué es lo último que escribió Confucio en 2026?”. Confucio lleva muerto miles de años, sin embargo los modelos de IA rara vez te dirán “no lo sé”. Existe la posibilidad de que obtengas una respuesta como la siguiente.

El resultado anterior es en realidad más taoísta que confuciano. Las IAs modernas tienen salvaguardas bastante fuertes contra la alucinación. De hecho, ¡tuve que darle permiso a ChatGPT para que alucinara! Si alguna vez quieres experimentar con la imaginación de un modelo, dile que se “desquicie por completo” y verás cómo desciende a la locura total.

Aprendizaje contrastivo

¿Cómo distingue una IA entre un gato y un perro sin entrenamiento? La respuesta está en el aprendizaje contrastivo. A continuación, dividimos el perro y el gato en atributos, como hicimos antes con otros animales.

Perro: Woof, 4 patas, patas
Gato: Miau, 4 patas, patas

Los animales de arriba son casi idénticos, pero no del todo. Estos animales emiten sonidos opuestos. El perro dice “guau” mientras que el gato dice “miau”. El modelo convierte estos datos en números. Después, encuentra rápidamente la diferencia entre los dos animales. Utilizando la toma cero, los modelos de IA filtran rápidamente sus incrustaciones en busca de información contrastada.

Ingeniería Prompt

La ingeniería pronta es el arte de hablar con la IA. Cuando sabes qué decir, puedes conseguir que el modelo genere el resultado exacto que deseas. En un artículo anterior sobre web scraping con Claude utilizo el siguiente prompt.

"""Hello, please parse this chunk of the HTML page and convert it to JSON.  Make sure to strip newlines, remove escape characters, and whitespace:  {response.text}"""

El mensaje es claro y el modelo sabe exactamente lo que quiero que haga. Me devuelve una lista de citas de la página. Esto es sólo un fragmento.

"quotes": [
    {
      "text": "The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.",
      "author": "Albert Einstein",
      "tags": ["change", "deep-thoughts", "thinking", "world"]
    },
    {
      "text": "It is our choices, Harry, that show what we truly are, far more than our abilities.",
      "author": "J.K. Rowling",
      "tags": ["abilities", "choices"]
    },

Si no hubiera especificado el formato de los datos, probablemente me daría toda la salida en formato de texto plano. Texto plano está bien para la legibilidad humana, pero si usted está escribiendo un programa, JSON es mucho mejor para trabajar. El modelo me da lo que quiero porque escribí el prompt para escupir exactamente lo que quiero. La ingeniería de las instrucciones hace que la salida generativa sea objetiva y tenga el formato adecuado.

Retos y limitaciones del aprendizaje a tiro cero

El aprendizaje sin disparos tiene un precio. Como hemos dicho antes, el aprendizaje cero deja margen para las alucinaciones. A los modelos de IA no les gusta decir “no lo sé” ni admitir que se equivocan.

Para evitar las alucinaciones, recurrimos en gran medida al preentrenamiento. Los datos de formación son caros y a menudo desordenados. Si está recolectando los datos usted mismo, necesitará crear un ETL Pipeline. ETL significa “Extraer, Transferir, Cargar”. A gran escala, ETL no es un paseo por el parque. Hay que extraer terabyte tras terabyte de datos relevantes. A continuación, hay que limpiarlos y formatearlos (transferirlos). Por último, hay que cargarlos en el modelo. Más información sobre los escollos de la IA.

En Bright Data ofrecemos conjuntos de datos limpios y preelaborados. Estos pueden llevar su preentrenamiento al siguiente nivel y ahorrarle horas (incluso días) de extracción, limpieza y formateo. Eche un vistazo a nuestros conjuntos de datos estructurados.

Conclusión

El aprendizaje cero está revolucionando la IA al permitir a los modelos procesar nueva información sin formación previa. A medida que aumente la adopción de la IA, esta técnica será aún más esencial en todos los sectores.

¿Está preparado para potenciar su IA con datos de alta calidad? Inicie su prueba gratuita con Bright Data y acceda hoy mismo a conjuntos de datos de primer nivel.

Contactar ventas Prueba gratuita