Google crea una IA que funciona como los humanos: aísla nuestra voz

Alberto García Publicado el 16 de abril, 2018 • 17:40

Los seres humanos podemos centrarnos en una sola voz o conversación en un ambiente abarrotado de gente. Esta escucha selectiva es un mecanismo complejo que la neurociencia todavía no conoce en detalle. Sin embargo, desde Google han conseguido crear una IA que es capaz de hacer exactamente eso: aislar una voz de un hablante en un vídeo de otras voces y ruido de fondo.

La IA de Google puede aislar voces en un vídeo con varias personas

Para lograrlo, han hecho uso de un modelo de deep learning que puede amplificar la voz de determinadas personas en un vídeo. Para ello, hace uso tanto del audio como del vídeo de la persona hablando, con el fin de replicar lo que hacemos las personas de centrarnos en una persona o en un único sonido. Esto es conocido como el “efecto de fiesta de cóctel”.

Para entrar a la IA, los investigadores recogieron 100.000 vídeos de YouTube de alta calidad, incluyendo charlas y presentaciones, para aislar un total de 2.000 horas de gente hablando sin ningún tipo de interferencia de fondo y que se vieran claramente en la cámara. A partir de ahí, crearon una especie de “fiesta de cóctel sintética”, mezclando varios vídeos de varios hablantes y añadiendo ruido de fondo. Con ello entrenaron el modelo para que pudiera diferenciar cada señal de audio a raíz de lo que ya conocía previamente.

Gracias a esto, pudieron aislar a cada hablante a pesar del ruido de fondo, y crearon un sistema de vídeo interactivo donde se podía pinchar en la cara de cada uno de ellos para aislar el sonido de su voz. Para comprobarlo, cogieron vídeos de la televisión, como la siguiente discusión entre dos periodistas deportivos de ESPN.

En este otro vídeo, el resultado es aún más espectacular, ya que permite aislar tanto el sonido principal como el sonido de fondo.

Entre los principales usos que Google afirma que puede tener esta tecnología encontramos que se puede crear un sistema de subtítulos automatizado muchísimo más fiable que el que utilizan ahora plataformas como YouTube. En el siguiente vídeo podemos ver el de dos monologuistas que hablan a la vez, y cómo con este sistema los subtítulos mejoran sustancialmente.

Mejoras en altavoces inteligentes, vídeos grabados en la calle o espionaje: posibles usos

Otro de los posibles usos que seguramente veremos para esta tecnología es la implementación en altavoces inteligentes, gracias a lo cual podrán identificar mejor a cada usuario de la casa, o crear un sistema de identificación basado directamente en la voz de su dueño. Con ello también se mejora la compresión de las órdenes que le demos a distancia si hay más gente hablando.

Por último, también podría mejorar la grabación de sonido en los vídeos que grabemos con el móvil en zonas con mucha gente, como puede ser la calle. Seguramente la CIA o la NSA ya le han echado el ojo a esta tecnología para espiar a una sola persona hablando en zonas abarrotadas.