x
1

Deepfake



Deepfake o ultrafalso [1]​ es un acrónimo del inglés formado por las palabras fake, falsificación, y deep learning, aprendizaje profundo.[2]​ Es una técnica de inteligencia artificial que permite editar vídeos falsos de personas que aparentemente son reales, utilizando para ello algoritmos de aprendizaje no supervisados, conocidos en español como RGAs (Red generativa antagónica), y vídeos o imágenes ya existentes.[3]​ El resultado final de dicha técnica es un vídeo muy realista, aunque ficticio. Entre los ejemplos destacados de uso del uso de la técnica del deepfake[4]​ se encuentran dos escenas de la película Rogue One una historia de Star Wars (2016) en las que la Princesa Leia aparece con la cara de Carrie Fisher cuando era joven, cuando en realidad fue interpretada por la actriz noruega Ingvild Deila.[5]

Esta técnica de modelo de RGAs se popularizó por la creación de contenido falsificado en el que un actor o personaje del espectáculo aparecía participando en un vídeo pornográfico realizando actos sexuales. En esta modalidad de vídeos falsos, éstos son creados mediante la combinación de un vídeo pornográfico (que es utilizado como referente para el algoritmo) más otro vídeo o imagen del actor o personaje, el cual es procesado por el programa informático con técnicas deepfake. No importa que el actor o personaje nunca haya realizado escenas o vídeos pornográficos, precisamente lo que se persigue es crear el efecto, lo más realista posible, de que algo así ha ocurrido. Debido a la abundancia de contenido pornográfico que existe en Internet, los vídeos deepfake acostumbran a crear falsificaciones pornográficas de celebridades aunque cabe resaltar que también son usados para falsificar noticias y crear bulos malintencionados. Esta tecnología emergente vio su origen en el mundo de la investigación con aplicaciones prácticas en el mundo del cine como una alternativa a los procesos construcciones digitales que tienden a generar altos costos. Quizá el ejemplo más famoso de la implementación de esta tecnología en el cine es en la última película de la saga Star Wars. En la cual la actriz Carrie Fisher, conocida por su personaje princesa Leia, había fallecido durante su rodaje, por lo que hubo que hacer uso de esta técnica para las escenas que faltaba grabar. Gracias a los algoritmos RGA se pueden generar fotografías que parecen auténticas a observadores humanos. Por ejemplo, una fotografía sintética de un gato que consiga engañar al discriminador (una de las partes funcionales del algoritmo) es probable que lleve a una persona cualquiera a aceptarlo como una fotografía real.[6]

Tradicionalmente, los fakes audiovisuales, que más adelante terminarían nombrándose deepfakes, eran aquellas obras que pretendían engañar a través de los estímulos visuales y auditivos, como sería el caso del cine, la televisión e internet. En inglés, también se les designaba como mockumentaries (documentales falsos), los cuales utilizaban técnicas y códigos típicos del documental para generar al espectador la sensación de que la historia que se le estaba contando era cierta, aunque siempre había un aviso de los autores informando que el contenido era falso. Un ejemplo lo encontramos en la emisión radiofónica "La guerra de los mundos", dirigida y narrada por Orson Welles en 1938. Este episodio causó el pánico a millones de estadounidenses, los cuales se habían creído como verdadera la adaptación radiofónica de la novela de Herbert George, que afirmaba que se estaba produciendo una invasión extraterrestre en la Tierra, aunque varios avisos habían subrayado que era una narración ficticia. Es así como se puede ver que los deepfakes ya hace muchos años que en cierto modo se habían empezado a crear, antes del episodio de reddit en 2017. Un ejemplo aún más primitivo que los anteriores es el retrato del presidente de los Estados Unidos, Abraham Lincoln, datado del 1865. En este, el rostro del presidente fue superpuesto encima la cabeza de una impresión más antigua, donde aparecía John C. Calhoun apoyado encima un escritorio de una sala azulejada, impresión realizada por A.H. Ritchie en 1852. [7][8]​ Por último, también habría que destacar el momento histórico donde el explorador y médico estadounidense Frederick Cook presentó públicamente un seguido de pruebas audiovisuales (archivos sonoros y fotografías) afirmando que había llegado al Polo Norte en 1908, cuando no fue así. Por suerte, al cabo de unos años se consiguió desmentir la falsa noticia. Es así como a partir de esta manipulación constante que se ha estado utilizando continuamente durante décadas, que el término mockumentary terminó contradiciéndose a sí mismo. Como explica Vicente Díaz Gandasegui:

“El concepto de “falsos documentales” encierra una contradicción en si misma por cuanto el adjetivo falso precede al sujeto documental, el cual hace referencia a un material que pretende reflejar la realidad. Realidad y falso son términos que en nuestra cultura se plantean tradicionalmente como opuestos pero, sin embargo, el desarrollo de tecnologías capaces de recrear la realidad con total fidelidad ha hecho que aparezcan estos espacios intermedios e híbridos que combinan la realidad y la irrealidad.“ [9]

Finalmente, en 1997 se creó el que realmente se podría considerar el antecedente más cercano a lo que actualmente se conoce como deepfake. Se trata del programa “Video Rewrite”, el cual consiguió por primera vez modificar las imágenes de un vídeo donde una persona hablaba para representar que estaba diciendo unas otras palabras reproducidas a partir de una pista de audio diferente. Este programa fue el primer sistema en establecer conexiones entre los sonidos producidos por el sujeto del vídeo y la forma de su cara mediante técnicas de aprendizaje automático de un ordenador. [10][11]

Los Deepfakes utilizan los algoritmos RGAs del cual dos modelos de Aa (Aprendizaje automático) son presentados con objetivos antagónicos.[12]​ El primer modelo de Aa es alimentado una base de datos de referentes visuales, ya sean fotografías o vídeos y con esta base empieza a generar imágenes falsificadas.[12]​ El otro modelo por su parte se encarga de detectar las imágenes falsas creadas por el primero modelo, este ciclo se repite hasta que eventualmente el primer modelo logra generar una imagen que el segundo modelo no logra identificar como falsa.[12]

Teniendo lo anterior presente, es claro ahora entender por qué el uso de esta tecnología ha sido dirigida primordial mente a figuras públicas. Debido a la vasta cantidad de contenido audiovisual que existe de estas personas, es fácil alimentarselas a la base de datos del modelo para poder crear imágenes falsas convincentes.

Actualmente, las técnicas para identificar deepfakes han conseguido llegar a un nivel de precisión del 86, 6%, lo cual está muy bien, pero en un futuro se tendría que poder asegurar llegar al 99% de seguridad y consistencia. Los métodos que hoy en día se están utilizando para identificar los deepfakes y por el momento han funcionado correctamente son varios.

Uno de ellos es el de análisis de metadatos, información textual sobre la producción del archivo multimedia (cámara, ISO, data de creación...),  para ver si la imagen ha estado manipulada previamente. Es posible modificar los metadatos pero la gran mayoría de archivos contienen la información de los programas de edición utilizados, facilitando así, la identificación de las intervenciones en los archivos. No es totalmente eficaz pero puede ser un buen método de detección preliminar de deepfakes.

Otro sistema as analizando el nivel de error (ELA, Error Level Analysis) de los métodos de compresión de imágenes de archivos como JPG, que al comprimirse pierden información. Así pues, hace falta saber que las imágenes editadas acostumbran a tener áreas con diferentes niveles de artefactos de compresión, ya que han estado sometidas a varios sistemas de compresión. [13]

También se podriá intentar identificar los artefactos visuales, residuos de la creación de rostros falsos con deepfakes, de los que se pueden destacar 3: [14]

Por último, se ha descubierto que a menudo los deepfakes tienen errores en la estructura de los rostros. Eso se debe al hecho que se crean a partir del reemplazo de partes del rostro original con imágenes faciales sintetizadas, y como las personas tienen estructuras de la cara diferentes, la tecnología de los deepfakes no acaba de conseguir garantizar que todos los puntos de referencia identificados por la computadora se alineen correctamente.

Otros elementos de identificación son el hecho que los vídeos creados artificialmente acostumbran a ser demasiado perfectos en cuanto a imagen, produciendo así que les falte aquellas imperfecciones de los vídeos grabados de verdad en el mundo físico real. Por otra parte, también se han creado nuevos algoritmos que pueden llegar a percibir el flujo de sangre en las personas que aparecen en los vídeos. [15]

Por lo que hace referencia a la voz, como más cortos sean los audios, más difícil será poder detectar si as sintético o no, y la calidad tanto del sonido de la voz como del sonido de fondo también hará que sea más fácil o no de distinguir un audio falso de uno de verdadero. Consecuentemente, como más clara sea la grabación de la voz y menos sonido de fondo tenga, más fácilmente identificable será el engaño. Hay que destacar, que en comparación con los vídeos, los audio deepfakes sí que son mayoritariamente identificables por ordenadores, aunque seguramente no lo sean tanto para el oído humano a simple vista. Cada segundo que una persona habla, su voz contiene de entre 8.000 y 50.000 datos que pueden ayudar al ordenador a verificar su autenticidad. Un ejemplo sería la rapidez en la que los humanos pueden pronunciar determinados sonidos con los músculos de la boca y las cuerdas vocales. Por otro lado, al analizar una voz de un audio también es importante fijarse en la pronuncia de los sonidos fricativos, ya que a los sistemas de deep-learning les cuesta mucho diferenciar esos sonidos con posibles ruidos. Por último, otro elemento que les cuesta distinguir es el final de las frases con el sonido de fondo, hecho que hace que los deepfakes puedan contener momentos donde la voz se aleje del micrófono o teléfono más a menudo del que una persona acostumbraría a hacer. [16]

Los deepfakes, aunque normalmente se utilicen con intenciones fraudulentas, también ha habido personas que han querido aprovechar este nuevo avance tecnológico para aportar cosas buenas y útiles en la sociedad. Por eso se puede afirmar que también han conseguido producir una evolución positiva en diferentes ámbitos.

En un momento donde un actor o actriz se quedara sin voz en un rodaje, en vez de haber que detenerlo hasta que esa persona se recuperara, se podría simular su voz a partir de àudio deepfakes. Por otro lado, también se podrían corregir errores de escenas en la etapa del montaje, modificando un rostro o movimientos de una persona por otros, en caso que no fueran los deseados. Hasta se podría conseguir realizar películas con actores que ya hubieran fallecido o doblajes de forma automática y en cualquier lengua, aunque eso supondría la eliminación del trabajo de los actores de doblaje y sería muy grave. [15]​ Hay que destacar per, que ya se ha empezado a experimentar con alguna es estas técnicas en el ámbito cinematográfico, razón por la cual se ha podido avanzar tanto en el realismo de las películas de animación o en los efectos especiales en general.

Un ejemple sería la exposición permanente de arte titulada Dalí Lives, que se creó el 2019 en el Dalí Museum a St. Petersburg, Florida. Antes de morir, el mismo Dalí en una entrevista afirmó: “Generalmente yo creo en la muerte, pero en la muerte de Dalí, claramente no”. Así pues, se puede ver en esta exposición como hacen realidad su opinión reviviendo al pintor con un deepfake construido a partir de unos 6.000 fotogramas existentes de entrevistas suyas, 1.000 horas de aprendizaje automático para que el algoritmo de inteligencia artificial reprodujera con precisión el rostro de Dalí en diferentes posiciones, falseando las expresiones faciales a través de un actor, y la voz realizada por un doblador profesional capaz de imitar el acento particular de Dalí. [17]​ La novedad no solo es que a partir de esa tecnología se pueda mostrar el pintor vivo en la actualidad, sino que además se pueda dotarlo de tal inteligencia artificial que pueda ser capaz de interactuar con el público, casi como si fuera un dispositivo Alexa. La sorpresa final, también impresionante, es que siempre termina la conversación preguntando a los visitantes si se quieren hacer una selfie con él, se gira y toma una, la cual después te puedes enviar en el móvil. [18]​ Otro ejemplo donde se podría utilizar el deepfake de forma educativa sería en la traducción automática e inmediata de conferencias online (videoconferencia), donde al modificar las expresiones faciales y de la boca del hablante para que fuera coherente la imagen con el audio traducido, mejoraría el contacto visual del espectador y facilitaría su concentración y aprendizaje en el tema.

Se cree que se podría utilizar deepfakes para ayudar a las personas a enfrentarse con la pérdida de seres queridos, reviviéndolos durante unos minutos para así permitir a los familiares despedirse del difunto definitivamente, en caso que no hubieran tenido la oportunidad de hacerlo en el moment adecuado. Además, también habría la posibilidad de poder ayudar a personas con Alzheimer a interactuar con rostros jóvenes que podrían recordar de otras épocas de su vida. [15]​ Respeto al audio, aquellas personas que por culpa de alguna enfermedad hubieran perdido su voz, se les podría volver a crear para que pudieran interactuar verbalmente con la gente. Eso ya se ha visto con el caso de Stephen Hawkings, aunque su tecnología no intentaba simular la voz que él tenía anteriormente. Quien realmente fue uno de los primeros en llevar a cabo esa innovación fue el crítico cinematográfico Roger Ebert, quien al perder su voz a causa de un cáncer, la quiso volver a recuperar con el uso del audio deepfake. Esa operación la llevó a cabo la compañía CereProc con éxito, a partir de muchas horas de audio de la voz de Ebert cuando aún tenía voz para que el ordenador la pudiera procesar y crear de cero sintéticamente. [19]

Un ejemplo muy claro e ilustrativo del empleo de deepfakes en el ámbito empresarial es la posibilidad que uno pudiera probarse la ropa por internet a través de un personaje artificial creado a partir de un deepfake con las propias proporciones, figura, etnia y rostro del cibernauta, elemento que sería totalmente revolucionario y útil en el comercio electrónico (e-commerce). [15]​ Por otro lado, en los videojuegos, el audio deepfake ha supuesto un gran avance en la mejora de su contenido, ya que permite los personajes puedan hablar en directo de forma muy realista, a diferencia de hace unos años, donde su intervención era muy falsa i estática. [20]

El nivel de precisión y verosimilitud de los deepfakes, los cuales mejoran constantemente a un ritmo muy elevado, hace que cada vez sea mucho más difícil de diferenciar un vídeo, una imagen o un audio falso de uno de real, porque mientras difundir información falsa es mucho más sencillo, comprobar y autentificar la información cierta es bastante más complicado. Actualmente en EE.UU, por ejemplo, un estudio del Pew Research Center ha afirmado que uno de cada cinco usuarios de internet se informa de las noticias de actualidad a través de la plataforma de YouTube, mientras la segunda más popular es facebook, dos webs donde la facilidad para crear un canal propio y promocionarlo de informativo es absolutamente sencillo, rápido y eficaz. [21]​ Eso obliga a los informáticos a intentar encontrar inmediatamente soluciones para afirmar, comprobar y autentificar el contenido informativo de las redes sociales per evitar que personas con intenciones malévolas manipulen la opinión pública.

Por otro lado, el hecho que este tipo de vídeos y fake news se difundan por las redes sociales tan rápidamente, llegando a millones de personas, está empezando a generar una crisis de fiabilidad de información importante con impactos negativos en la sociedad que actualmente ya es muy presente y se llama information apocalypse o “infopocalypse”. [15]​ Consiste en la idea de que la población, al estar tan habituada a encontrarse delante de información engañosa, hasta vídeos y audios, hace que consecuentemente empiecen a dudar de la credibilidad de toda la información que consumen. Así pues, al final, muchos acaban descartando ideas ciertas como falsas simplemente por el hecho que se han acabado aferrando a la idea de que cualquier cosa que ellos no quieran creer, será falsa. Como dice la investigadora Aviv Ovadya en The Washington Post:

“It’s too much effort to figure out what’s real and what’s not, so you’re more willing to just go with whatever your previous affiliations are.” [22]

Por este motivo, los periodistas de hoy en día tienen un trabajo clave en la elección y comprobación de autenticidad de un hecho y vídeo. Encontramos así, determinados medios de comunicación que ya están empezando a formar a sus reporteros para que aprendan técnicas de detección de deepfakes y herramientas para identificar otros tipos de contenido falso. [15]​ Una de les razones por las que es tan difícil identificar deepfakes es que estos parten de imágenes reales, pueden también incorporar audio con sonoridad prácticament auténtica y realista, y una vez publicados en las redes sociales, su difusión mundial es inmediata. Hay que destacar que estas redes son el target perfecto para los creadores de deepfakes, ya que es donde se difunden de manera más fácil y rápida las conspiraciones, los rumores y la información falsa. [15]​ Consecuentemente, la peligrosidad de esta nueva tecnología en la era en la que estamos la explican muy bien Robert Chesney y Danielle Citron en un artículo de Foreign Affairs:

"Deepfakes have the potential to be especially destructive because they are arriving at a time when it already is becoming harder to separate fact from fiction." [23]

Por otro lado, con la llegada del audio deepfake se han tenido que tomar medidas importantes y profundas sobre todo en la seguridad de las llamadas telefónicas. Antes que se pudiera clonar la voz con inteligencia artificial ya era recurrente encontrarse con situaciones en donde criminales intentaban robar dinero mediante llamadas y se había llegado a prevenir muchas estafas. El problema pero, es que la diferencia entre una voz robótica y una de humana en un futuro próximo será muy difícil de diferenciar, sobre todo si se hace a través de un teléfono, ya que el audio resultante siempre acabará adquiriendo un tono de voz mucho más distorsionado que de normal. Además, cada vez se requerirá menos minutos y material de audios para poder falsificar la voz de una persona. Otra situación habitual también podría ser, en vez de tener el objetivo de robar dinero, intentar robar contraseñas importantes a diferentes personas haciéndose pasar por familiares cercanos. [24]

La actriz noruega Ingvild Deila interpretó a la Princesa Leia en Rogue One: una historia de Star Wars, aunque su cara no apareció en la gran pantalla. Gracias a las mismas técnicas que se utilizan en el Deepfake se pudo ver a una jovencísima Carrie Fisher, aunque estaba a punto de cumplir los 60 años en el momento del rodaje. Algo más adelante, Carrie Fisher falleció durante el rodaje y se volvieron a aplicar nuevamente las mismas técnicas.[25]​ Aun así, el mundo del cine se encuentra debatiendo la posición legitima y las oportunidades que esta tecnología brinda a la producción de contenido audiovisual. Existen diversos canales de Youtube que implementan estas tecnologías en películas populares para mostrar el poder de estos software. Estos vídeos varían de entrevistas en las cuales sobreponen la cara de una figura pública en el cuerpo de la persona entrevistada [26]​, o recrean escenas famosas que pareciera que fueron llevadas a cabo por otro actor.[27]

Las técnicas deepfake se popularizaron en el mundo mediante el surgimiento de contenido pornográfico en el año 2017, los primeros vídeos se vieron publicados en la plataforma Reddit siendo prohibida inmediatamente por sitios como el mismo Reddit, Twitter y Pornhub. En otoño de 2017, un usuario anónimo de Reddit bajo el seudónimo "Deepfakes" publicó varios vídeos pornográficos. El primero vídeo que atrajo la atención de la prensa fue uno en el que protagonizaba a la actriz Daisy Ridley el cual causó el primer debate acerca de este contenido falsificado.[28]​ Al poco tiempo surgió otro vídeo bajo la misma cuenta de "Deepfakes" el cual protagonizaba a la actriz Gal Gadot siendo parte de otro vídeo pornográfico.[29]​ La noticia de este vídeo fue cubierta por Vice por la reportera Samantha Cole en el cual hace una investigación detalla del origen de esta tecnología emergente y la comunidad de pornografía falsa que surgió a partir de estos vídeos.[29]​ Hay que destacar que aunque el vídeo resultante es completamente falso (deepfake) no ocurre lo mismo con los vídeos pornográficos sobre los que se habían superpuesto los rostros de ambas actrices.

En la sección técnica y científica de la revista Vice se informó por primera vez sobre el tema en diciembre de 2017, lo que llevó a su amplia difusión en otros medios.[29]​ La atención traída al tema por los reportajes hechos alrededor del mundo llevaron a que al poco tiempo una persona creara una aplicaron que facilitaba el uso de estas tecnológicas. Al poco tiempo de que esta applicacion se lanzara al público, se especula que logro alcanzar aproximadamente las 100,000 mil descargas.[30]​ Actualmente aunque se han buscando alternativas para contraatacar este contenido falso, se ha especulado que aproximadamente un 96% del contenido creado por los algoritmos de Deepfake han sido para la creación de vídeos pornográficos.[31]

De la misma manera como los vídeos que involucraban a las actrices Daisy Ridley y Gal Gadot lograr captar la atención de los noticiero alrededor del mundo, el mundo de la política también se vio involucrado en el desarrollo de contenido falsificado por mano de los algoritmos de Deepfake. En este caso la finalidad del uso de este software es disfamar la imagen y la opinión de las figuras políticas mediante la creación de discursos falsos. A mediados de abril de 2018 el actor y director Jordan Peele publicó un vídeo en el que mediante la falsificación de un discurso del expresidente Barack Obama buscaba llamar la atención a las consecuencias que esta tecnologías podrían tener.[32]​ Desde ese entonces ha habido un incremento en la producción de vídeos que involucran a políticos tales como uno publicado en el 2019 que consiste en sobreponer la cara del presidente Donald Trump sobre la actuación del comediante Jimmy Fallon.[33]

Actualmente con la cercanía de las elecciones presidenciales norteamericanas del 2020, se ha visto un incremento de debates en relación con el tema de los deepfakes y la falsificación de contenido audiovisuales.[34]​ Existen figuras políticas tales como Marco Rubio que han comparado esta tecnología emergentes como las armas nucleares del siglo XXI.[35]​ En junio del 2019 la House Intelligence Commitee en Estados Unidos llevó a cabo una serie de debates y audiencias que giraron en torno a los riesgos que los deepfakes presentaban a la integridad política del país.[36]



Escribe un comentario o lo que quieras sobre Deepfake (directo, no tienes que registrarte)


Comentarios
(de más nuevos a más antiguos)


Aún no hay comentarios, ¡deja el primero!