El tiempo
     Santa Cruz

T Tecnologia

Las máquinas ya leen los labios mejor que las personas

Un equipo de ingenieros diseña un sistema altamente fiable para ayudar a personas con sordera o mejorar las pesquisas policiales

hace 1 año(s)

,

Un equipo de investigadores de la Universidad de Oxford (Reino Unido) y de la empresa de inteligencia artificial DeepMind, adquirida por Google en 2014, han inventado un sistema automático de lectura de labios que, según sostienen, supera la eficiencia de los profesionales dedicados a esta actividad y de las anteriores alternativas informáticas. El modelo de estos científicos, que han trabajado a partir de miles de horas de emisión de la cadena audiovisual pública de su país, la BBC, se basa en el big data y en las redes neuronales profundas, es decir, en una arquitectura de deep learning.

El objetivo de los autores de este método, denominado “Observa, escucha, atiende y deletrea”, era reconocer frases y palabras pronunciadas por cualquier individuo, con independencia de sus características y sin que importase si su intervención iba acompañada de audio o si se reproducía por televisión sin sonido real. Sus aplicaciones, expuestas en el portal del grupo de ingeniería de la información, van de la asistencia a personas con problemas de sordera a la mejora de las pesquisas policiales, pasando, por supuesto, por la colaboración para quienes están al servicio de los medios de comunicación.

Cuando Joon Son Chung, Andrew Senior, Oriol Vinyals y Andrew Zisserman abrieron esta línea ya eran conscientes de que la habilidad de leer los labios de alguien mientras habla es muy compleja. Requiere un entrenamiento intenso y constante, y está sometida al capricho de factores ambientales, físicos, etc. Sin embargo, los avances en la traducción automática les brindaban herramientas que han sabido aprovechar para obtener un resultado que, a su entender, es satisfactorio. Lo es incluso si no se posee ningún sonido que acompañe la imagen del sujeto que está moviendo la boca en la pantalla, una dificultad que no han querido soslayar.



Otra exigencia que se impusieron fue que el aprendizaje de la máquina debía ser rápido. Los subtítulos añadidos a muchos planos de bustos parlantes de la BBC les fueron de gran ayuda. Pero, en numerosas ocasiones, no se dio esta circunstancia. Además, las personas no permanecen quietas mientras se expresan, tienen distintos acentos, a veces aparecen mal iluminadas o se sitúan lejos de las cámaras... Pues bien, los investigadores querían que el rendimiento de su fórmula fuese el máximo. Y, a juzgar por las conclusiones del artículo en el que dan cuenta de ello, lo consiguieron.

Todos los parámetros que fijaron los ingenieros para validar su invento fueron aprobados. De hecho, su éxito les situó por delante del resto de opciones. En este aspecto, la incorporación de un gran volumen de datos a su solución fue de lo más ventajosa. Con la finalidad de comparar métodos, los científicos también contactaron con un profesional con diez años de experiencia y un amplio historial en el que figuran encargos para los cuerpos de seguridad y hasta una boda real. El reto consistía en descifrar una muestra aleatoria de 200 vídeos del conjunto de pruebas con unas restricciones notables.

En las mismas condiciones, él logró averiguar una cuarta parte del total de términos y oraciones, mientras que la inteligencia artificial llegó a la mitad. Otro experimento integrado en el proyecto empezó con la locución de cientos de palabras aisladas por mil voces diferentes. Y acabó del mismo modo: el protocolo de evaluación confirmó la preeminencia del nuevo sistema.


Notas Relacionadas