Aprendizaje por transferencia

TLDR: El aprendizaje por transferencia toma un modelo entrenado en una tarea y lo adapta a una nueva. Reduce drásticamente los datos y el cómputo necesarios para entrenar sistemas de IA eficaces.

El aprendizaje por transferencia es una técnica en el aprendizaje automático. Un modelo entrenado en una tarea fuente grande se reutiliza como punto de partida para una tarea objetivo diferente. El modelo transfiere el conocimiento adquirido en la primera tarea. Esto es especialmente útil cuando los datos etiquetados para la tarea objetivo son escasos. Entrenar un modelo desde cero requiere grandes cantidades de datos y cómputo. El aprendizaje por transferencia logra buenos resultados con muchos menos ejemplos.

Cómo Funciona el Aprendizaje por Transferencia

Preentrenamiento: Un modelo grande se entrena en un conjunto de datos grande y general. Para visión, suele ser ImageNet. Para lenguaje, es un gran corpus de texto.
Transferencia: Los pesos del modelo preentrenado se copian a un nuevo modelo.
Ajuste fino: El nuevo modelo se entrena adicionalmente en un conjunto de datos más pequeño y específico de la tarea. Las capas iniciales suelen congelarse; las capas posteriores se actualizan.

Enfoques Clave

Extracción de características: El modelo preentrenado se usa como extractor de características fijo. Solo se entrena una nueva cabeza clasificadora.
Ajuste fino: Todo o parte del modelo preentrenado se reentrena en el nuevo conjunto de datos con una tasa de aprendizaje baja.
Adaptación de dominio: El modelo se adapta de un dominio (p. ej., fotos) a otro (p. ej., imágenes médicas) con mínimos datos etiquetados del objetivo.

Aplicaciones

Visión por computadora: Una CNN preentrenada en ImageNet se ajusta finamente para imágenes médicas, detección de defectos o imágenes satelitales. Ver: visión por computadora.
PLN: Modelos como BERT y GPT se preentrenan en texto web y luego se ajustan para análisis de sentimientos, reconocimiento de entidades nombradas o respuesta a preguntas.
Robótica: Las habilidades de manipulación aprendidas en simulación se transfieren a robots reales. Esto reduce la costosa recopilación de datos de entrenamiento en el mundo real.
Conducción autónoma: Los modelos de percepción preentrenados en grandes conjuntos de datos se adaptan a nuevos tipos de vehículos o entornos con datos nuevos limitados.

Aprendizaje por Transferencia y Eficiencia de Datos

El aprendizaje por transferencia es una de las técnicas más prácticas en la IA moderna. Reduce los requisitos de datos etiquetados de millones de ejemplos a miles. La calidad de los datos del dominio fuente sigue siendo importante. Un modelo preentrenado con datos limpios y diversos transfiere mejor. Los conjuntos de datos de Bright Data ayudan a los equipos a construir corpus de preentrenamiento y conjuntos de datos de ajuste fino de alta calidad en distintos dominios.

Prueba gratuita Comienza con Google