Skip to content

tonnyESP/LayeredPeopleDetector

Repository files navigation

PeopleDetection - Detector por capas

Detección de personas

Input:

  • Imagen RGB

Output:

  • Posición x_inicial, x_final, y_inicial, y_final (de la Bounding Box).
  • Posición x,y de cada una de las 18 partes del cuerpo.

Post-procesado:

  • Determinar posición respecto a la cámara
  • Control de sesiones

Aproximaciones:

Grupos de Trabajo en Detección de peronas

  • Objetivo: Comparar Yolo vs Faster RCNN vs MobileNet SSD.
    • Obtener un dataset de vídeo etiquetado de personas. (O generarlo manualmente).
    • Evaluar rendimiento obtenido para cada aproximación. (Acierto nº de personas)
    • Maximizar rendimiento calibrando los modelos o buscando nuevos que mejoren los anteriores.
      • Por ejemplo, a partir de modelos que devuelven la pose de la persona detectada (esqueleto).

Evaluación por cada modelo:

  • Numero de aciertos en el número de personas por frame
  • Formato (por frame) en csv:
 [id_frame (o id_imagen si no se trabaja en vídeo), time_stamp, bbox_min_x, bbox_min_y, bbox_width, bbox_height, score (certeza) ]  

Detección de caras

Input:

  • Imagen RGB
    • Preferible, el crop de la BoundingBox extraída en el paso de Detección de Personas

Output:

  • Posición x_inicial, x_final, y_inicial, y_final (de la Bounding Box).
  • Posición x,y de cada una de las 68 facial landmarks de la cara (También hay modelos de 5 puntos en vez de 68)

Post-procesado (trabajo actual):

  • Determinar microexpresiones por los facial landmarks

Aproximaciones

Grupos de Trabajo en Face segmentation

  • Objetivo: A partir de la Bounding Box de la persona (imagen rgb), extraer la posición de la cara más probable (bounding box) - OpenCV vs dlib vs deep learning
    • Obtener un dataset de caras etiquetado. (O generarlo manualmente).
    • Evaluar rendimiento obtenido para cada aproximación. (Acierto posición de la cara)
    • Maximizar rendimiento calibrando los modelos o buscando nuevos que mejoren los anteriores.

Evaluación por cada modelo:

  • Acierto en overlap de la bounding box de la cara (Mean IOU - Intersección sobre la unión)
  • Formato (por frame) en csv:
 [id_frame (o id_imagen si no se trabaja en vídeo), time_stamp, bbox_min_x, bbox_min_y, bbox_width, bbox_height, score (certeza) ]  

Predicción de Género y Edad (etnia)

Input

  • Crop de la BB de la cara extraída en Detección de caras

Output:

  • Edad numérico (¿Rangos?)
  • Género numérico (0, 1, probabilidad)

Grupos de Trabajo en Predicción de Género / Edad / Etnia / ...

  • Objetivo: A partir de la Bounding Box de la cara (imagen rgb), extraer las características de género y edad (y otras como etnia si fuera posible)
    • Obtener un dataset de caras etiquetado con edad y género. (O generarlo manualmente).
    • Evaluar rendimiento obtenido para cada aproximación. (Acierto de edad y género)
    • Maximizar rendimiento calibrando los modelos o buscando nuevos que mejoren los anteriores.

Evaluación por cada modelo:

  • Calcular el error medio cuadrático y error medio absoluto de las predicciones obtenidas para cada característica.
  • Formato (por frame) en csv:
 [id_frame (o id_imagen si no se trabaja en vídeo), time_stamp, predicted_age, predicted_genre ]  

Predicción de Emociones

Input

  • Crop de la BB de la cara extraída en Detección de caras

Output:

  • Emoción dominante
  • Disgust
  • Surprise
  • Sad
  • Angry
  • Fear
  • Happy
  • Contempt
  • Neutral

Aproximaciones

Grupos de Trabajo en Predicción de emociones

  • Objetivo: A partir de la Bounding Box de la cara (imagen rgb), extraer el estado emocional de la persona
    • Obtener un dataset de caras etiquetado. (O generarlo manualmente).
    • Evaluar rendimiento obtenido para cada aproximación.
    • Maximizar rendimiento calibrando los modelos o buscando nuevos que mejoren los anteriores.

Evaluación por cada modelo:

  • Matriz de confusión para cada emoción como se cita en FER2013 Matriz de confusión por emociones
  • Formato (por frame) en csv:
 [id_frame (o id_imagen si no se trabaja en vídeo), time_stamp, score_neutral, score_happiness, score_surprise, score_sadness, score_anger, score_disgust, score_fear, score_contempt ]  

Resultado final esperado

{
"bbox_body":{ "coords" : [[x, y], [x, y`]], "image": '' },
"bbox_face":{ "coords" : [[x, y], [x', y']], "image": '' },
"skeleton": [ ],
"facial_landmarks": "",
"emotions": "",
"age": "",
"genre": ""

}

TODO:

Añadir links:

About

Detector por capas de personas y extracción de características

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published