Ingeniería de características

TLDR: La ingeniería de características transforma datos brutos en entradas significativas que ayudan a los modelos de aprendizaje automático a aprender de forma más rápida y precisa.

La ingeniería de características es el proceso de crear las variables de entrada — características — que un modelo de aprendizaje automático utiliza para aprender. Una característica es cualquier propiedad medible de los datos. Las buenas características codifican el conocimiento del dominio sobre lo que importa para la tarea de predicción. Las características irrelevantes añaden ruido y perjudican el rendimiento del modelo. La ingeniería de características fue la habilidad dominante en ML antes de que el aprendizaje profundo automatizara gran parte de ella.

Técnicas Principales

Normalización y Escalado: Reescala los valores a un rango común (0–1 o puntuación z). Evita que las características de gran magnitud dominen.
Codificación de Categorías: Convierte categorías en números mediante codificación one-hot, de etiquetas o de destino.
Transformación Logarítmica: Aplica logaritmo a distribuciones sesgadas (ingresos, población). Hace que los patrones sean más lineales para que el modelo aprenda.
Características de Fecha/Hora: Extrae el día de la semana, la hora o el tiempo transcurrido desde un evento a partir de columnas de marcas de tiempo.
Características de Interacción: Multiplica o combina dos características para capturar efectos conjuntos que el modelo podría no detectar individualmente.
Características de Texto: Convierte texto en vectores TF-IDF, recuentos de palabras o embeddings para tareas de PLN.

Selección de Características

No todas las características mejoran el modelo. Demasiadas características provocan la «maldición de la dimensionalidad». Métodos de selección comunes: análisis de correlación, información mutua y eliminación recursiva de características. Los modelos basados en árboles como Random Forest reportan puntuaciones de importancia de características integradas. Las técnicas de regularización (L1/Lasso) eliminan automáticamente las características débiles.

Ingeniería de Características vs. Aprendizaje Profundo

El ML tradicional (regresión logística, gradient boosting) depende de características diseñadas manualmente. El aprendizaje profundo aprende representaciones automáticamente a partir de datos brutos. Las CNN aprenden características de imágenes sin ninguna ingeniería manual. Los Transformers aprenden características de texto de extremo a extremo desde grandes corpus. La ingeniería de características sigue siendo fundamental para datos tabulares y específicos de dominio donde las redes neuronales no tienen ventaja inherente.

Calidad de Datos y Calidad de Características

Las características son tan buenas como los datos subyacentes. Las etiquetas de verdad fundamental deben ser consistentes para que las características generalicen entre divisiones. Los valores faltantes, los valores atípicos y la deriva del esquema degradan las características con el tiempo. Los conjuntos de datos de Bright Data proporcionan datos de entrenamiento limpios y estructurados, listos para la extracción de características sin la carga de la limpieza de datos brutos.

Prueba gratuita Comienza con Google