top of page

Así funciona un deepfake: la inteligencia artificial que copia rostros y voces


Detrás de un video o imagen deepfake hay un complejo sistema de algoritmos de inteligencia artificial diseñados para imitar rostros, voces y gestos humanos con una precisión cada vez más inquietante. Para lograrlo, se utilizan principalmente redes neuronales artificiales, entre ellas las llamadas Redes Neuronales Convolucionales (CNN), las Redes Generativas Antagónicas (GANs) y los autoencoders variacionales (VAEs).

Las CNN son una clase de redes especialmente eficaces para analizar y procesar imágenes.


Están inspiradas en la forma en que el cerebro humano procesa la información visual. Su estructura incluye varias capas:

  • La capa de entrada, que recibe la imagen original.

  • Las capas convolucionales, que aplican filtros (llamados kernels) para detectar bordes, texturas y patrones.

  • Las capas de agrupación, que reducen la cantidad de datos sin perder la información esencial.

  • Y finalmente, las capas completamente conectadas, que transforman toda esa información en una predicción o resultado final.


Sin embargo, para que un deepfake funcione realmente bien, se necesita algo más que solo procesamiento visual. Ahí entran en juego las GANs, un tipo de red neuronal compuesta por dos sistemas que compiten entre sí: un generador, que crea imágenes falsas, y un discriminador, que evalúa si esas imágenes parecen reales. A través de esta competencia constante, el generador va aprendiendo a producir contenidos cada vez más difíciles de distinguir de los auténticos.


Por otro lado, los VAEs (autoencoders variacionales) se especializan en intercambiar rostros de forma realista. Comprimen una cara, la reconstruyen con alta fidelidad y permiten aplicarla sobre otro cuerpo o fondo, imitando movimientos, expresiones y gestos del rostro original.

Todo este proceso requiere enormes volúmenes de datos. A mayor cantidad y calidad del material de entrenamiento (videos, fotos, audios), mayor será el nivel de realismo del deepfake generado. La inteligencia artificial necesita ver a la persona desde distintos ángulos, con diferentes luces, emociones y contextos para replicarla de forma convincente.


El entrenamiento de un modelo de deepfake se desarrolla en varias fases:


  1. Recolección de datos:

    Se recopilan imágenes y videos de la persona objetivo, asegurando variedad en expresiones, ángulos y condiciones de iluminación. También se recogen grabaciones de voz para entrenar modelos de imitación auditiva.

  2. Preprocesamiento:

    Todo el material visual se normaliza (mismo tamaño, formato, iluminación) y se etiquetan las partes clave del rostro (ojos, nariz, boca, contorno facial), lo que permite guiar al algoritmo en su aprendizaje.

  3. Entrenamiento del modelo:

    • Las CNN extraen características visuales.

    • Las GANs inician el ciclo generador/discriminador para mejorar la calidad de las imágenes falsas.

  4. Optimización continua:

    A través de la retroalimentación, los errores detectados por el discriminador permiten mejorar al generador. Este ciclo se repite en miles de iteraciones, hasta que las imágenes sintéticas son prácticamente indistinguibles de las reales.


Finalmente, en el caso de los videos, todo el material se renderiza cuadro por cuadro. Esto permite que los movimientos del rostro y los gestos corporales se vean naturales, como si se tratara de una grabación auténtica.


¿Por qué importa entender esto?

Comprender cómo funciona esta tecnología no es solo una cuestión técnica. Es esencial para saber cómo se produce la manipulación de imágenes sin consentimiento, cómo se vulneran derechos, y por qué resulta tan difícil detectar (y detener) un deepfake una vez publicado.

Frente a estos avances, la alfabetización digital y la conciencia crítica son nuestras primeras herramientas de defensa.


Referencias

 

Alzaga, Á. (2025). La metamorfosis de la verdad: Deepfakes y el desafío de la autenticidad en la sociedad digital. Derecom: Revista Internacional de Derecho de la Comunicación y las Nuevas Tecnologías38(1), 45-57.

Comentarios

Obtuvo 0 de 5 estrellas.
Aún no hay calificaciones

Agrega una calificación
bottom of page