La tecnología de Harry Potter ha llegado hasta hoy. Ahora, para crear un vídeo completo de una persona basta con tener una foto o una foto de ella. Los investigadores del centro de aprendizaje automático de Skolkovo y el Centro de IA Samsung de Moscú publicaron su trabajo sobre la creación de un sistema de este tipo, junto con una serie de vídeos de celebridades y objetos de arte que han recibido una nueva vida.

Puede leer el texto del trabajo científico aquí. Todo es muy interesante allí, con muchas fórmulas, pero el significado es simple: su sistema está guiado por «puntos de referencia», atractivos de la cara, como la nariz, dos ojos, dos cejas, mentón. Así que instantáneamente capta lo que es una persona. Y luego puede transferir todo lo demás (color, textura facial, bigote, barba, etc.) a cualquier otro video de una persona. Adaptar la vieja cara a las nuevas situaciones.

Por supuesto, sólo funciona en retratos hasta ahora. El modelo sólo necesita una persona, con la cara hacia hacia el frente, para que al menos pueda ver los dos ojos. Entonces el sistema puede hacer cualquier cosa con él, pasarle cualquier imitación. Basta con darle un vídeo adecuado (con otra persona con la cabeza más o menos en la misma posición).

Anteriormente, la IA ya había aprendido a hacer deepfakes, y los usuarios de Internet se divertían mucho con las celebridades, insertando sus caras en el porno y haciendo memes con Nicholas Cage. Pero para ello, tuvieron que entrenar algoritmos con megabytes (o mejor dicho, gigabytes) de datos, para encontrar tantas imágenes y vídeos con rostros de celebridades como fuera posible, para dar resultados más o menos decentes. El propio creador de Deepfakes dijo que le lleva de 8 a 12 horas compilar un vídeo corto. El nuevo sistema genera el resultado instantáneamente, y de principio, sólo necesita una imagen.

Más en Nanova ||  Estudio de EE.UU.: agua potable de mar de bajo coste y alta eficiencia

Con el sistema anterior, nunca hubiéramos podido ver la Mona Lisa en vivo, sólo tenemos una perspectiva de ella. Ahora, con los algoritmos trabajando por puntos de referencia, esto es posible. El ideal no se puede alcanzar, pero algo ya está cerca.

Los investigadores de Samsung en Moscú también utilizan la red generativa y competitiva en su trabajo. Dos modelos del algoritmo están luchando entre sí. Cada uno trata de engañar al oponente y demostrarle que el video que ella crea es real. Así se alcanza un cierto nivel de realismo: la imagen de un rostro humano no se libera «a la luz» si el crítico del modelo no está seguro de su autenticidad en más de un 90%. Como dicen los autores en su trabajo, decenas de millones de parámetros están regulados en imágenes, pero debido a este sistema, el trabajo se realiza muy rápidamente.

Si hay varias imágenes, el resultado mejora. Una vez más, la forma más fácil de trabajar es con celebridades que ya han sido filmadas desde todos los ángulos posibles. Para conseguir un «realismo perfecto» se necesitan 32 tomas. En este caso, las fotos de IA generadas en baja resolución serán indistinguibles de las fotos humanas reales. A estas alturas, las personas sin formación ya no son capaces de detectar una falsificación – tal vez los expertos o los parientes cercanos del «sujeto» de todas estas imágenes sigan siendo capaces de detectar una falsificación.

Si sólo hay una foto o pintura, el resultado no siempre es el mejor. Los propios investigadores dicen que su punto más débil es la mirada. El modelo basado en puntos de referencia faciales no siempre entiende cómo y dónde debe mirar una persona.

Más en Nanova ||  El robot flotante con cerebro IBM se dirige al espacio
Encontré que mi punto clave cubriendo la industria automovilística y realizando ocasionalmente pruebas de carretera de motocicletas al trabajar para un distribuidor. Esto llevó a 5 años de hacer una crónica del auge de los fabricantes de motocicletas y del mundo de la tecnología aplicada al transporte. También me encantan los temas científicos y grandes avances en la técnica e industria.