Esta nueva IA revolucionaria llega desde China para dominar el mercado

Que se prepare el sector de la inteligencia artificial, porque un nuevo contendiente llega directamente desde China con la intención de revolucionar el sector. Su capacidad no ha tardado en darse a conocer de forma multitudinaria debido a su gran capacidad y a la eficacia que demuestra a la hora de hacer su “magia”. ¿De qué es capaz exactamente?
Seguro que te suena el nombre de Alibaba. El grupo chino es una de las empresas más importantes del mercado asiático y una de las entidades más reconocibles de China. Hoy consiguen ponerse en la portada de los medios tecnológicos gracias al nuevo trabajo que han realizado desde el Instituto de Inteligencia Computacional, el cual ya ha sido responsable con anterioridad de importantes avances. Ahora sorprenden con su IA, a la cual han bautizado EMO.
Así es la IA Emote Portrait Alive
Su nombre es totalmente característico del sistema tecnológico que proporciona, dado que permite que los retratos introducidos en la inteligencia artificial con fotos estáticas cobren vida. Pero no de una manera cualquiera, sino con unos resultados tan avanzados que te van a sorprender. Así, partiendo de solo un retrato, es posible acabar con un vídeo en el que veamos a la persona de esa foto cantar. Por supuesto, el vídeo también podrá ser con el protagonista del retrato hablando, pero verlo cantando con los labios sincronizados es algo todavía más impactante. En este vídeo, por ejemplo, puedes ver algunas de sus demos, como Leonardo DiCaprio rapeando una canción de Eminem o la Mona Lisa cantando un tema de Miley Cyrus.
Los responsables de la IA están muy orgullosos del trabajo que han realizado porque son conscientes de que han logrado superar muchos de los problemas con los que la inteligencia artificial se había encontrado. Así, aunque ya se habían hecho pruebas en cuanto a convertir fotos estáticas en imágenes animadas, los vídeos que ofrecen ellos con EMO están muy por encima.
Así es como funciona
Si tienes curiosidad por la parte técnica de EMO y quieres zambullirte en toda la documentación que han publicado los responsables de la IA, puedes pasarte por arXiv y leerlo aquí. No obstante, te podemos resumir su funcionamiento general y otras de sus grandes ventajas. Así, lo primero de todo es que se proporciona un resultado realmente realista. El vídeo en el que vemos a la persona de la foto cantando, hablando y moviéndose, puede pasar por una secuencia real sin problemas. Es obvio que todavía tiene algunas carencias, pero el progreso que ha hecho la IA respecto a propuestas previas, es notable.
Dicen que saben que esta tecnología se ha encontrado con muchos problemas en el pasado, pero que han encontrado la forma de dejarlos atrás. Para ello utilizan una solución de audio a vídeo que parte de imágenes estáticas y no requiere que se use ningún tipo de modelo 3D. Su herramienta usa un modelo de difusión con una IA que ha sido entrenada con cientos de horas de vídeo de cabezas de personas hablando.
La inteligencia artificial ha reproducido, en total, más de 250 horas de vídeos que proceden de todo tipo de programas de televisión, así como películas o series. También han utilizado discursos o distintos tipos de declaración, así como actuaciones musicales. El factor clave es que la IA se alimentara de ese tipo de vídeos que mostraban las cabezas de distintas personas. Además, desvelan que la particularidad de su tecnología es que transforma las ondas de sonido en frames de vídeo. Ese es el secreto de cómo han podido llegar a transmitir animaciones tan realistas y todo tipo de animaciones faciales a los resultados de sus vídeos.
Stelfie the Time Traveller@StelfieTTJust in 👀this is the most amazing audio2video I have ever seen.
It is called EMO: Emote Portrait Alive https://t.co/3b1AQMzPYu28 de febrero, 2024 • 08:39
1.8K
75
A base de trabajo duro y de entrenar a su IA durante meses, lo que han conseguido es un modelo de inteligencia artificial capaz de conseguir vídeos más realistas que todo lo visto con anterioridad en este campo. Pero son conscientes de que este tipo de herramienta va a suponer una serie de dilemas y problemas morales con los que tendrán que lidiar. Al fin y al cabo, tienen capacidad para que, con una foto y una pista de audio, puedan conseguir crear un vídeo de cualquier persona cantando. Y el resultado cada vez va a ser más realista y convincente, lo que está claro que abrirá varios debates al respecto.