Segmentación Semántica

TLDR: La segmentación semántica etiqueta cada píxel de una imagen con una categoría de clase. Proporciona a las máquinas una comprensión detallada de una escena a nivel de píxel.

La segmentación semántica es una tarea de visión por computadora. Clasifica cada píxel de una imagen en una categoría predefinida — por ejemplo: carretera, coche, peatón, cielo o edificio. A diferencia de la detección de objetos, que dibuja cuadros delimitadores, la segmentación semántica produce una máscara de píxeles exacta por clase. Proporciona al modelo una comprensión detallada de la forma y ubicación de los objetos. Esta precisión es fundamental para la conducción autónoma y la imagen médica.

Tipos de Segmentación

Segmentación Semántica: Todos los píxeles de la misma clase comparten una etiqueta. Dos coches se etiquetan ambos como ‘coche’ — sin distinción entre instancias individuales.
Segmentación de Instancias: Distingue objetos individuales de la misma clase. Cada coche recibe un ID y una máscara únicos.
Segmentación Panóptica: Combina ambas — todos los píxeles etiquetados por clase, con IDs de instancia únicos para objetos contables como coches y personas.

Arquitecturas de Modelos Clave

Red Totalmente Convolucional (FCN): El primer modelo de extremo a extremo para segmentación semántica. Reemplaza las capas densas con convolucionales para salida por píxel.
U-Net: Codificador-decodificador con conexiones de salto. Arquitectura estándar para segmentación de imágenes médicas.
DeepLab v3+: Utiliza convoluciones atrous y ASPP para capturar contexto multiescala. Estado del arte en conjuntos de datos de referencia.
Segment Anything Model (SAM): El modelo fundacional de Meta para segmentación zero-shot en cualquier categoría de objetos.

Aplicaciones

Vehículos Autónomos: Segmentan carreteras, marcas viales, vehículos y peatones en tiempo real. Combinado con LiDAR y nubes de puntos para comprensión de escenas 3D.
Imagen Médica: Segmentan tumores, órganos y tejidos en resonancias magnéticas, tomografías y análisis de patología.
Imágenes Satelitales: Mapean el uso del suelo, detectan deforestación y monitorean infraestructuras desde imágenes aéreas.
Robótica: Segmentan superficies de trabajo para guiar la manipulación robótica y la navegación segura.
Realidad Aumentada: Separan el primer plano del fondo para superposiciones de escenas y efectos visuales.

Datos de Entrenamiento para Modelos de Segmentación

La segmentación semántica requiere imágenes densamente anotadas. Cada píxel debe llevar una etiqueta — una de las formas más laboriosas de etiquetado de datos. Anotar una sola escena de conducción a nivel de píxel puede llevar 90 minutos. Los datos sintéticos de simulaciones proporcionan verdad de campo a nivel de píxel de forma gratuita y reducen drásticamente el costo de anotación. Los conjuntos de datos de Bright Data ofrecen grandes colecciones de imágenes para construir conjuntos de datos de entrenamiento para segmentación a escala.

Prueba gratuita Comienza con Google