- Gestión automatizada de sesiones
- Dirígete a cualquier ciudad de 195 países
- Sesiones simultáneas sin límite
Segmentación Semántica
TLDR: La segmentación semántica etiqueta cada píxel de una imagen con una categoría de clase. Proporciona a las máquinas una comprensión detallada de una escena a nivel de píxel.
La segmentación semántica es una tarea de visión por computadora. Clasifica cada píxel de una imagen en una categoría predefinida — por ejemplo: carretera, coche, peatón, cielo o edificio. A diferencia de la detección de objetos, que dibuja cuadros delimitadores, la segmentación semántica produce una máscara de píxeles exacta por clase. Proporciona al modelo una comprensión detallada de la forma y ubicación de los objetos. Esta precisión es fundamental para la conducción autónoma y la imagen médica.
Tipos de Segmentación
- Segmentación Semántica: Todos los píxeles de la misma clase comparten una etiqueta. Dos coches se etiquetan ambos como ‘coche’ — sin distinción entre instancias individuales.
- Segmentación de Instancias: Distingue objetos individuales de la misma clase. Cada coche recibe un ID y una máscara únicos.
- Segmentación Panóptica: Combina ambas — todos los píxeles etiquetados por clase, con IDs de instancia únicos para objetos contables como coches y personas.
Arquitecturas de Modelos Clave
- Red Totalmente Convolucional (FCN): El primer modelo de extremo a extremo para segmentación semántica. Reemplaza las capas densas con convolucionales para salida por píxel.
- U-Net: Codificador-decodificador con conexiones de salto. Arquitectura estándar para segmentación de imágenes médicas.
- DeepLab v3+: Utiliza convoluciones atrous y ASPP para capturar contexto multiescala. Estado del arte en conjuntos de datos de referencia.
- Segment Anything Model (SAM): El modelo fundacional de Meta para segmentación zero-shot en cualquier categoría de objetos.
Aplicaciones
- Vehículos Autónomos: Segmentan carreteras, marcas viales, vehículos y peatones en tiempo real. Combinado con LiDAR y nubes de puntos para comprensión de escenas 3D.
- Imagen Médica: Segmentan tumores, órganos y tejidos en resonancias magnéticas, tomografías y análisis de patología.
- Imágenes Satelitales: Mapean el uso del suelo, detectan deforestación y monitorean infraestructuras desde imágenes aéreas.
- Robótica: Segmentan superficies de trabajo para guiar la manipulación robótica y la navegación segura.
- Realidad Aumentada: Separan el primer plano del fondo para superposiciones de escenas y efectos visuales.
Datos de Entrenamiento para Modelos de Segmentación
La segmentación semántica requiere imágenes densamente anotadas. Cada píxel debe llevar una etiqueta — una de las formas más laboriosas de etiquetado de datos. Anotar una sola escena de conducción a nivel de píxel puede llevar 90 minutos. Los datos sintéticos de simulaciones proporcionan verdad de campo a nivel de píxel de forma gratuita y reducen drásticamente el costo de anotación. Los conjuntos de datos de Bright Data ofrecen grandes colecciones de imágenes para construir conjuntos de datos de entrenamiento para segmentación a escala.