Tiempo de lectura: 2 minutos
Shares

Enseñar a las máquinas a comprender acciones humanas en los vídeos es un todo un desafío tecnológico, incluso a pesar de los grandes avances de los últimos tiempos. Aún así, Google ha lanzado un nuevo conjunto de datos de vídeo que ayudará a acelerar la investigación en el campo del reconocimiento de acciones dentro de vídeos. AVA (Acciones Visuales Atómicas), es el nombre de esta funcionalidad que crea múltiples etiquetas que sirven para describir las acciones que aparecen en las secuencias de vídeo.

Veamos, pues, en qué consiste AVA de Google.

AVA de Google identifica acciones humanas en los vídeos

Hasta ahora, identificar acciones humanas en un vídeo había sido una tarea compleja. Por ejemplo, un frame de un vídeo en el que aparece alguien corriendo podría tratarse también de una frame de la secuencia de alguien saltando. Es necesario agregar más fotogramas para ver realmente qué acción se desarrolla. Y si se trata de más de una persona interactuando en una misma escena, el proceso se complica aún más.

¿Cómo desarrolla Google sus “Acciones Visuales Atómicas”? A través de etiquetas que delimitan cuadros dentro de las escenas, agregando más detalles en las más complejas. Tras haber analizado más de 57.000 segmentos de vídeo etiquetados y 96.000 personas humanas etiquetadas se han desarrollado un total de 210.000 etiquetas en total. Los segmentos de vídeo han sido extraídos de vídeos públicos de Youtube, con una duración aproximada de 3 segundos cada uno, y se etiquetaron manualmente usando una lista potencial de 80 tipos de acciones (caminar, patear, abrazar…).

En comparación con otros conjuntos de datos de acción (recordemos que empresas de reconocimiento de vídeo como Matroid, o sistemas de seguridad como Lighthouse también se basan en conjuntos de datos etiquetados), AVA de Google cuenta con unas características determinadas: 

  • Anotación centrada en la persona. Cada etiqueta de acción está asociada a una persona, no a un vídeo, por lo que se pueden asignar diferentes etiquetas a varias personas que realizan diferentes acciones en la misma escena, lo cual, a su vez, es bastante común.
  • Acciones visuales atómicas. Se limitan las etiquetas de acción a escalas temporales finas (3 segundos), donde las acciones son de naturaleza física y tienen firmas visuales claras.
  • Material de vídeo realista. Como fuente de AVA, se toman películas de distintos géneros y de distintos  países de origen, explorando distintos comportamientos humanos que aparecen en los datos.

AVA de Google 2

La apuesta de Google supone, sin duda, todo un desafío para la industria tecnológica y una buena noticia para la mejora de las búsquedas de vídeos y las personas con problemas visuales.

 

Imagen: Freepik.com
Shares