Google desarrolla IA para detectar lenguaje de señas en videollamadas

Google desarrolla IA para detectar lenguaje de señas en videollamadas y ayudar a las personas sordas, sordomudas y con debilidad auditiva

Google está consciente de que las videollamadas son una de las herramientas más socorridas y necesarias en esto que, a modo de eufemismo, llamamos Nueva Normalidad. Por ello, y para apoyar a las personas que utilizan el lenguaje de señas, desarrolló una IA que lo detecta en tiempo real para apoyarles en su comunicación.

Evidentemente, los sistemas de videollamada priorizan los canales de voz. Incluso, estos tienen una función para hacer que se resalte una persona que está hablando con voz, algo que pone en desventaja a las personas sordomudas o débiles auditivas que utilizan el lenguaje de señas para comunicarse.

En respuesta a esto, Google presentó el sistema de visión computarizado nuevo de su interfaz en el ECCV 20, que aunque requerirá un poco más de uso de CPU, también es una función necesaria para hacer accesible esta era tecnológica a todas las personas que están dentro de ella.

Aparecerá una ventana con la imagen de tu Webcam y tu micrófono, aquí puedes configurar si la actias o no.

La nueva herramienta de Google se basa en el modelo de estimación de movimiento llamado PoseNet, que hace un seguimiento del movimiento del cuerpo, mediante vectores computarizados modelados por IA, para poder interpretar cuáles son las acciones de una persona en pantalla.

De esta forma, en cuanto la IA detecte que los movimientos representan el lenguaje de señas mostrará y resaltará al usuario que lo está haciendo. De lo contrario, el software identificará que son movimientos de cualquier otra naturaleza y no les dará prioridad.

(Foto: Getty Images)

Según Google, esta nueva función logró hasta 80% de efectividad en la detección del lenguaje de señas en tiempo real (equivalente a un tiempo de latencia de 0.000003 segundos) y un incremento a 83.4% con un búfer de 50 cuadros de video. Por otro lado, este sistema aprende de su usuario y, tras un poco de tiempo de uso, este logra hasta 91.5% de efectividad en tan solo 3.5 milisegundos.

Este sistema se encuentra en código abierto mediante GitHub para que otros programadores puedan hacer más pruebas con él para su mejora.