Sin incrustaciones, la industria de la IA y la tecnología en general serían prácticamente irreconocibles. Los LLM no te entenderían, los motores de búsqueda no tendrían ni idea de lo que estás buscando y todos los demás sistemas de recomendación escupirían basura aleatoria.
Exploraremos cómo funcionan las incrustaciones y su importancia en el aprendizaje automático.
¿Qué son las incrustaciones?
Las máquinas no entienden palabras, pero sí números. Cuando escribes código en cualquier lenguaje de software, mediante compilación o interpretación, acaba convirtiéndose en binarios o código hexadecimal (ambos formatos numéricos) que una máquina puede entender.
En la IA, sobre todo en el aprendizaje automático, el modelo debe comprender la información. Aquí es donde entran en juego las incrustaciones. Las incrustaciones permiten transformar palabras, imágenes y cualquier otro tipo de información en números legibles por la máquina. Esto permite a la IA encontrar patrones, relaciones y significados.
Las máquinas entienden de números, no de palabras. Las incrustaciones son el puente entre los datos humanos y la IA.
Por qué son importantes las incrustaciones
Imagina un mundo en el que buscas una pizzería y te recomiendan unos tacos. Al hacer web scraping, ¡imagina pedir consejos sobre Python a ChatGPT o Claude y recibir instrucciones sobre cómo cuidar de una pitón mascota!
Las incrustaciones permiten a los modelos comprender su intención. Sin ellos, la mayoría de los sistemas trabajarían comparando tu texto exacto con algo de su base de datos.
- LLMS: Con los embeddings, estos modelos pueden entender lo que realmente estás diciendo. Sin ellos, los LLM no encontrarían tu significado… ¿Recuerdas los consejos de Python?
- Recomendaciones: Empresas como Netflix las utilizan junto con filtros y algunas otras técnicas para recomendar programas que realmente te gustarán.
Las incrustaciones permiten a las máquinas no sólo leer datos, sino comprenderlos realmente.
Vectores: El lenguaje de las incrustaciones
En su forma más simple, un vector no es más que una lista. Imagine que desea representar una lista de ordenadores portátiles. Cada portátil tiene detalles como el sistema operativo, el fabricante de la CPU, los núcleos de procesamiento y la memoria RAM.
Si tenemos dos ordenadores portátiles, podrían representarse así a continuación.
- Windows Portátil:
["Windows", "Intel", 4, "8"]
- Chromebook:
["ChromeOS", "Mediatek", 8, "4"]
Matrices: Combinación de vectores en tablas
Una matriz es una lista de listas. Los puristas técnicos me corregirán y la llamarán vector de vectores… pero, como ya hemos dicho, un vector no es más que una lista. Cuando los humanos miramos una matriz, la vemos como una tabla.
Aquí está nuestra matriz legible por humanos.
OS | Fabricante de la CPU | Núcleos de procesador | RAM (GB) |
---|---|---|---|
Windows | Intel | 4 | 8 |
ChromeOS | Mediatek | 8 | 4 |
Nuestra matriz es un vector de vectores (una lista de listas). Como se puede ver, esto es más difícil de leer, pero sigue siendo comprensible. Para una máquina es en realidad más fácil de leer que la tabla anterior, pero todavía no estamos optimizados para la legibilidad de la máquina.
[
["Windows", "Intel", 4, 8],
["ChromeOS", "Mediatek", 8, 4]
]
Para que sea realmente legible por una máquina, tenemos que sustituir las palabras por números. Asignaremos un número a cada uno de nuestros rasgos no numéricos.
OS
- Ventanas: 0
- ChromeOS: 1
Fabricante de la CPU:
- Intel: 0
- Mediatek: 1
En este punto, nuestra “tabla” pierde completamente la legibilidad humana. Sin embargo, las máquinas manejan muy bien los números. Esto permite a las máquinas procesar eficientemente estos datos para encontrar relaciones.
[
[0, 0, 4, 8],
[1, 1, 8, 4]
]
Esto es perfecto para que lo mire una máquina. Las máquinas no leen palabras, pero pueden detectar patrones en los números. En este formato, un modelo puede analizar eficazmente nuestros datos y buscar patrones.
Cómo funcionan las incrustaciones
Las incrustaciones van mucho más allá de la codificación numérica que hemos creado antes. Las incrustaciones nos permiten convertir grandes conjuntos de datos en matrices más complejas que ni tú ni yo seríamos capaces de comprender sin un análisis exhaustivo.
Con las incrustaciones, la IA puede analizar realmente estos datos y aplicar fórmulas para encontrar relaciones. Rey y Reina son conceptos similares. Ambos objetos tendrían vectores similares porque sus conceptos son casi idénticos.
Con los vectores, podemos realizar operaciones matemáticas. Las máquinas lo hacen mucho mejor que nosotros. Una máquina podría ver su relación con la fórmula que ves a continuación.
Rey - Hombre + Mujer = Reina
Incrustaciones supervisadas y no supervisadas
Existen dos tipos principales de incrustación: Supervisadas y No Supervisadas.
Incrustaciones supervisadas
Si entrenamos un modelo a partir de datos estructurados con etiquetas y asignaciones, esto se denomina aprendizaje supervisado y genera incrustaciones supervisadas. La IA está siendo enseñada explícitamente por un humano.
Usos comunes
- Correo electrónico: Determinados tipos de correo electrónico se clasifican como spam o no spam.
- Imágenes: Se entrena un modelo con imágenes etiquetadas de gatos y perros.
Con las incrustaciones supervisadas, los humanos ya conocen un patrón y se lo enseñan a la máquina.
Incrustación no supervisada
Las incrustaciones no supervisadas no están estructuradas ni etiquetadas. El modelo analiza grandes cantidades de datos. A continuación, agrupa palabras y caracteres que suelen aparecer juntos. Esto permite al modelo descubrir patrones en lugar de aprenderlos directamente de un ser humano. Si se descubren lo suficiente, estos patrones pueden dar lugar a predicciones.
Usos comunes
- LLM: Los grandes modelos lingüísticos están diseñados para escanear grandes conjuntos de datos de palabras y predecir con precisión cómo encajan entre sí.
- Autocompletar y corrector ortográfico: Una forma más primitiva de este mismo concepto. Está diseñado para predecir con precisión los caracteres con los que se construyen las palabras.
Cómo se crean las incrustaciones
Las incrustaciones no sólo las asignan los humanos, sino que se aprenden. Para aprender similitudes, patrones y, en última instancia, relaciones, es necesario entrenar un modelo con una gran cantidad de datos.
Paso 1: Recopilación de datos
Un modelo necesita un gran conjunto de datos para entrenarse. Si entrenas tu modelo usando Wikipedia, aprenderá datos de Wikipedia y hablará como Wikipedia. Nuestra API Web Scraper puede ayudarte a extraer datos de alta calidad en tiempo real.
Puede entrenar a su modelo en prácticamente cualquier cosa.
- Texto: Libros, PDF, páginas web, etc.
- Imágenes: Imágenes etiquetadas, relaciones entre píxeles
- Interacciones de los usuarios: Recomendaciones de productos, comportamiento del navegador
Paso 2: Convertir los datos en vectores
Como hemos aprendido antes, las máquinas no funcionan bien con datos legibles por humanos. Los datos recogidos en el paso anterior deben convertirse en vectores numéricos.
Existen dos tipos de codificación:
- Codificación en caliente: Este método es más básico. En este formato, el modelo no puede capturar relaciones en los datos.
- Incrustaciones densas: Son más comunes en la IA moderna. Los objetos estrechamente relacionados (rey y reina) se agrupan en la matriz.
Paso 3: Entrenamiento del modelo
Para crear incrustaciones, los modelos utilizan técnicas de aprendizaje automático como las que se describen a continuación.
- Coocurrencia de palabras(Word2Vec, GloVe
)Marcador de posición Polylang no modificar
- Aprendizaje contextual(BERT, GPT
)Polylang marcador de posición no modificar
Paso 4: Ajuste fino
Una vez entrenado un modelo, hay que ajustarlo. Para afinar un modelo, se ajustan sus incrustaciones para adaptarlo a tareas específicas.
- Los motores de búsqueda perfeccionan sus incrustaciones para comprender mejor las consultas.
- Los sistemas de recomendación suelen ajustar sus incrustaciones en función del comportamiento del usuario.
- Los LLM requieren ajustes periódicos para adaptar sus incrustaciones en función de los nuevos datos.
Conclusión
Las incrustaciones son una parte integral no sólo de la industria moderna de la IA, sino de la industria tecnológica en su conjunto. Son la base de todo, desde los resultados de las búsquedas hasta los LLM. Con nuestros conjuntos de datos, tendrás acceso a grandes cantidades de datos de calidad para entrenar tu modelo.
Regístrese ahora y comience su prueba gratuita, que incluye muestras de conjuntos de datos.
No se requiere tarjeta de crédito