El programa es capaz de reconocer hasta 17,500 palabras.

Una vez más la televisión es la clave. Investigadores de la división de inteligencia artificial DeepMind, perteneciente a Google, analizaron horas televisión con el fin de desarrollar el mejor software para leer los labios. El proyecto se llevó a cabo en colaboración con la Universidad de Oxford, la cual durante años ha tratando de crear un programa con estas características, como lo demuestra el amplio trabajo de investigación que sirvió como punto de partida a los ingenieros de Google.

Así fue como lo hicieron. Para que el software reconociera la mayor cantidad de palabras y gestos posible, los científicos de Google ingresaron a una red neuronal artificial 5,000 horas de televisión británica. Esto es 208 días de algo más que puro Mr. Bean. El resultado fue un programa que logró captar palabras con una precisión del 48.6 %, muy superior al 12.4% con que lo hacen los humanos.

Aunque el LipNet, el software desarrollado por Oxford, ha logrado reconocer hasta el 90% de las palabras que a las que se expone, el programa de DeepMind —apodado “Mira, Escucha, Atiende y Escribe”— está entrenado para comprender imágenes mucho más complejas. Google sometió su tecnología a programas populares de la BBC como NewsnightQuestion Time y The World Today, los cuales contienen 110,000 frases distintas y, aproximadamente, 17,500 palabras únicas. En comparación, el LipNet solamente puede leer un total de 51 palabras.

El objetivo de este trabajo es reconocer frases y sentencias enunciadas por un rostro hablante, con o sin audio. A diferencia de trabajos previos que se han enfocado en reconocer un número limitado de frases o palabras, nosotros afrontamos la lectura de labios como una cuestión relacionada a la apertura de un mundo, el cual puede incluir frases naturales y videos salvajes”, afirmó el equipo de Google.

Todavía se especula sobre el fin práctico de un software como este, el cual puede servir de ayuda a personas con algún tipo de impedimento auditivo. El programa, sin embargo, seguramente podrá mejorar un rango amplio de aplicaciones, incluyendo tanto el subtitulado de películas como el funcionamiento de asistentes digitales, ya sea Siri o Alexa, los cuales podrán reconocer incluso gestos.

vía The Next Web

fuente Cornell University Librery

temas