La IA de Sensetime, sube un nuevo peldaño en la creación de DeepFakes

Publicado por

Sus nuevas teconologías de mapeado 3D, permiten incluso crear vídeos tomando como base un audio

SenseTime, Una empresa tecnológica china, ha desarrollado un avanzado sistema de IA para crear DeepFakes tomando como base una imagen fija y un audio. Este trabajo, realizado por dicha empresa conjuntamente con La Universidad Tecnológica de Nanyang y el Instituto de Automatización de la Academia China de las Ciencias, no hacen más que confirmar lo rápido que avanzan estas tecnologías.
Pero halagos a parte, lo que voy a intentar explicaros en esta entrada, es la manera en la que funciona todo este batiburrillo. De modo que, ya sea por simple curiosidad, o bien porque estéis interesados en esta tecnología, tengáis algo de conocimientos básico.
Añadir que tampoco soy ningún experto, y que en la web oficial del proyecto está todo mucho mejor explicado, aunque en inglés. Así que si lo que buscabais era conocimiento avanzado, siento defraudaros 😓.

En primer lugar, os aconsejo que le echéis un vistazo a la imagen bajo la cabecera de la entrada (La podéis abrir con botón derecho en PC y con pulsación larga sobre ella en móvil), porque ahí está de forma resumida toda la info. Pero para entenderla mejor, vamos a desglosarla paso paso, como una receta.
Los 2 primeros ingredientes que necesitamos son: Una pizca de audio hablado, el cual servirá como base del DeepFake, y una jugosa imagen de la cara que utilizaremos como modelo, para que diga esas palabras. Una vez obtenido esto, los algoritmos de la IA hornearán por un lado un modelo en 3D de la cara a mostrar. Y por el otro, una especie de «instrucciones» que asignarán a cada parte del audio, una expresión facial adecuada para lo que se está diciendo. Todo esto acabará convertido en datos entendibles por el algoritmo y lo dejaremos macerar…
Por cierto, respecto a lo de asociar expresiones faciales al audio, imagino que la IA beberá del conocimiento que haya ido generando anteriormente gracias al deep learning; pero solo es una suposición.

Vídeo en el que se nos explica, también en inglés, los procedimientos utilizados para crear estos deepfakes.

El siguiente paso en nuestra «vídeo-receta», es tomar los datos generados anteriormente y empezar a mezclaros a fuego lento. Es decir, que con las expresiones (Recogidas del sonido), y la geometría y pose de la cara (Recogidas de la imagen), se crea un nueva fuente de datos donde se encuentran todos estos parámetros.
Y a partir de aquí es donde «empieza la magia»… Porque con la información conjunta de estas dos fuentes, se genera una malla del modelo 3D . Que, para quien le suene a Chino -Nunca mejor dicho-, consiste en una subdivisión en triángulos y otros polígonos muy pequeños de la superficie del modelo. Obteniendo de esta forma a partir del primer modelo estático (piensa en él como en una estatua de mármol), una malla editable que la IA podrá manipular según necesite (algo así como la arcilla sin secar o la plastilina).
Ahora bien, la gran diferencia que dice tener esta gente con respecto a otras herramientas similares, como DVP o TBE, son las bocas… Sí, las bocas. Pero para entenderlo mejor,sigamos con la receta, que ya casi la terminamos.

Deepfake obama comparación bocas
Comparación del movimiento de la boca de la tecnología de Face2Face, contra la de Sensetime

Nos habíamos quedado en la malla, que, ahora que ya sabéis lo que es, podríamos compararlo con una masa base 😁. Pues bien, una vez tenemos esta masa base lista para darle forma, es cuando entra en juego un ingrediente llamado mapas de calor. Que podría decirse son los moldes con los que haremos nuestro pan. Y es que, para que lo entendamos rápidamente, os diré que estos mapas de calor son puntos de referencia que usará la IA para generar el movimiento de la boca. Al parecer, dichos mapas son más completos que la mayoría de los que usa «la competencia», ya que, para poder dar un mayor detalle y definición al modelado de la malla, la cantidad de puntos de referencia es mucho mayor. Además de hacerse sobre una imagen 3D, en vez de una foto plana como sucede en otros de estos programas de DeepFake.

Así que para terminar, solo nos queda mezclar en un gran bol la malla 3D con los mencionados mapas de calor, y hacer que todo encaje sobre la cara de referencia aplicándole una textura (Imagen que cubre el modelo de malla) de alta resolución. Obteniendo así un deepfake rico rico y de alta calidad.

obama deepfake comparacion bocas
Comparación de la calidad de las bocas usando diferentes tecnologías.

A ver, como ya os he dicho, aun con semejante parrafada todo esto es una explicación muy básica de como funciona la tecnología IA de la mencionada empresa. Ya que aun faltaría comentar un par de puntos extra. Como por ejemplo, que estos amigos chinos tienen implementada una mejora para «generar» los dientes dentro de la boca de la imagen base. Y que además, al renderizar sus vídeos basándose en una malla 3D, pueden conseguir que la cabeza se mueva de una forma más natural durante el vídeo, o incluso crear un mismo vídeo desde diferentes ángulos. ¡Una maravilla oiga!
Así que nada más que añadir, esperando que esta información os haya resultado interesante, se despide:
David.
Gracias por haberte tomado la molestia de leer esta entrada, y nos vemos a la próxima.
Un saludo, ¡Pero de verdad!

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *