Manipulación de audio en videos

nov. 1, 2023

En los últimos años, estamos siendo testigos de una revolución sin precedentes en la creación de contenido multimedia, impulsada por el avance de la Inteligencia Artificial. Los algoritmos del lenguaje han avanzado significativamente, primero generando y modificando texto, luego imágenes, y más recientemente, videos y audio. Comienzan con la entrada de un texto o descripción, y a partir de esto, pueden crear imágenes que representen las descripciones. Esta (r)evolución no sólo está transformando la forma en que creamos contenido sino también la manera en que lo consumimos y compartimos.

Desde la capacidad de generar textos coherentes y persuasivos hasta la creación de imágenes sorprendentes a partir de meras descripciones, la IA ha ampliado los horizontes de la creatividad humana. Sin embargo, la revolución no se detiene allí. En este artículo exploraremos cómo la manipulación de audio en los videos se está convirtiendo en la próxima frontera de la creación de contenido multimedia. Y las ciber estafas…

Este paso en la evolución no solo plantea cuestiones emocionantes sobre la innovación y el entretenimiento sino que también presenta dilemas éticos y desafíos en términos de la veracidad y la confiabilidad de la información. La manipulación de audio en videos está desafiando los límites de la realidad, y su impacto en la sociedad será muy profundo.

A nivel profesional, esta tecnología promete facilitar enormemente los procesos creativos y de producción. En la industria cinematográfica, la posibilidad de ajustar y mejorar el audio de una escena o incluso cambiar el diálogo en postproducción podría ahorrar tiempo y recursos significativos. Los estudios de grabación de música podrían beneficiarse de una edición precisa y personalización de voces y sonidos, permitiendo a los artistas alcanzar nuevas alturas creativas. Además, en el mundo del marketing y la publicidad, la capacidad de adaptar y personalizar el audio de campañas publicitarias para diferentes audiencias podría aumentar la eficacia y el impacto de las estrategias de marketing. Sin embargo, a medida que aprovechamos estas ventajas, debemos ser conscientes de los desafíos éticos y la importancia de mantener la integridad de la información y la autenticidad en la comunicación multimedia. Esta evolución tecnológica plantea tanto oportunidades emocionantes como responsabilidades fundamentales en el ámbito profesional y personal.

Junto con las oportunidades profesionales, esta tecnología también plantea serias preocupaciones en relación a la ciberseguridad. Los ciberdelincuentes podrían utilizar la manipulación de audio en videos para crear contenido engañoso y fraudulentos, como discursos falsos de figuras públicas, que podrían ser utilizados para difundir desinformación o chantajear a individuos y organizaciones. Además, la facilidad para modificar voces y audios podría llevar a la proliferación de estafas telefónicas y ataques de suplantación de identidad con consecuencias financieras y personales devastadoras. La seguridad digital se convierte en una prioridad esencial a medida que esta tecnología avanza, y es crucial desarrollar contramedidas efectivas para prevenir su mal uso y proteger la integridad de la información y la privacidad de las personas.

Actualmente, estamos en un punto en el que modificar el audio de un video se ha vuelto más accesible y requiere menos conocimientos técnicos. Cualquier persona que tenga un video en el que alguien esté hablando puede, con relativa facilidad, generar un nuevo audio utilizando una voz diferente, incluso clonando la voz original para hacerlo más realista si fuera necesario. Luego, este nuevo audio puede reemplazar el original del video, lo que significa cambiar el mensaje que ese contenido visual pretende transmitir. De hecho, todos los ingredientes para llevar a cabo una suplantación de identidad avanzada ya están disponibles: desde la clonación de voz hasta la reproducción del audio con la voz clonada y la sincronización de la expresión facial. Como decíamos antes, este avance tecnológico plantea no solo emocionantes posibilidades creativas, sino también serias preocupaciones en términos de seguridad y autenticidad en el mundo digital.

Pero la manipulación de audio en videos va más allá de simplemente modificar lo existente; también permite agregar audio a videos donde no había antes. Para crear un deepfake, un tipo de manipulación audiovisual avanzada, los pasos son más accesibles de lo que podríamos imaginar. Cualquiera podría hacer que una persona diga algo que nunca dijo, una hazaña que hasta hace poco parecía reservada para el cine de ciencia ficción.

Vamos a ver paso a paso cómo puede manipularse el audio para dar vida a una imagen ficticia, incluso añadiendo una voz y cómo se puede modificar el audio de una imagen real. Sin embargo, antes de continuar, es importante enfatizar que todos los ejemplos y demostraciones que presentaremos son puramente ficticios y con fines de ilustración.

Ni la voz de las personas aquí involucradas ni lo que se menciona se corresponde en ningún caso con la realidad, es pura ficción y cómo tal ha de ser tratada. Es fundamental destacar que la suplantación de identidad, especialmente cuando se utiliza con fines ilegales, es un delito claramente tipificado por la ley. El objetivo aquí es educar sobre las posibilidades y desafíos que presenta esta tecnología, no promover su uso indebido.

Lo primero que haremos será crear una imagen a la que dar vida utilizando Dall-E 3, la herramienta de generación de imágenes de OpenAI, competidor de Midjourney han conseguido en su última versión crear una herramienta con capacidad de creación de imágenes realistas o de ilustración, para videojuegos, logos, campañas de marketing o publicidad, etc. Guiando al algoritmo de Dall-E 3 con una serie de iteraciones generamos una imagen futurista como la que observamos a continuación:

Hasta aquí todo normal, hemos generado una imagen de un cyborg en un ambiente futurista al que “daremos vida”, ahora utilizaremos la herramienta RunwayML que nos permite generar un video a partir de una imagen estática, una herramienta aun en versiones primerizas que puede generar resultados llamativos pero también erróneos o inválidos, está aun bastante verde aun pero nos sirve a la perfección para ilustrar el tema que aquí se trata.

Tenemos a nuestro personaje en movimiento ahora vamos a añadirle la voz, en Inglés, he utilizado el servicio Elevenlabs que nos permite tanto clonar voces ya existentes, siempre y cuándo tengamos los derechos de autor sobre la misma, o utilizar algunas ya predefinidas. Para modificar el video y añadirle el audio creado utilizaremos una herramienta en Python publicada en un Google Colab llamada Video Retalking que nos permite sustituir el audio de un video por otro. En nuestro caso no sustituiríamos nada ya que actualmente no tiene audio por lo que se añadirá la voz al mismo y se sincronizarán los labios del personaje ficticio para aparentar estar pronunciando lo que en el audio se pronuncia. Por alǵun motivo esta herramienta reduce bastante la calidad del video generado, así que cuantas más iteraciones sobre el mismo fichero mayor calidad se perderá, este es el resultado:

Un resultado bastante decente sobre el que ya se sientan las bases de las capacidades que en un futuro no muy lejano nos ofrecerán este tipo de herramientas, es un ejemplo simple sobre un personaje virtual pero hemos de tener en cuenta que el tiempo invertido en la creación tanto del personaje cómo de los contenidos relacionados ha sido ínfima con lo que hasta ahora podría llevar a un profesional conseguir un resultado de características similares.

Ahora quiero traducir el audio al español, al haber utilizado una voz optimizada para el inglés si quisiera crear su versión en español directamente con la misma obtendría un resultado mucho menos creible ya que su acento sería demasiado raro. He optado por generar el audio traducido pero con una voz especial creada para utilizar un acento español a la hora de hablar, una vez generada podemos sustituir la voz actual por la nueva utilizando la herramienta Video Retalking mencionada anteriormente.

Ya tenemos el mismo video con dos audios diferentes, ambos pronuncian lo mismo pero lo hacen en distintos idiomas, en cuestión de minutos podemos crear diferentes versiones de un contenido multimedia traducido a múltiples idiomas sin casi esfuerzo alguno. Hemos creado un personaje puramente ficticio y generado por la tecnología, fuera de toda realidad, pero este proceso va mucho más allá ya que también permite modificar contenidos reales, por ejemplo de un programa televisivo, un informativo. Es importante recordar que estos ejercicios son puramente demostrativos y ficticios y no pretenden engañar ni suplantar la identidad de ningún individuo.

Se trata de una conocida presentadora española para la televisión del país, ni es su voz ni lo que dice ha sido pronunciado por ella en ningún momento pero podemos ver cómo sus labios se sincronizan de forma bastante realista con lo que el audio reproduce. Teniendo en cuenta que, cómo ya hemos mencionado, es posible en la actualidad clonar la voz de una persona a partir de un audio de unos minutos, no es difícil imaginar hasta qué punto podríamos llegar a manipular este vídeo, u otro cualquiera. Aquí simplemente vamos a añadirle la versión en inglés que hemos utilizado antes para nuestra personaje:

La evolución es un proceso sorprendente que da forma a la diversidad de la vida a lo largo del tiempo. Los cambios en las imágenes representan la adaptación de las especies a su entorno, desde organismos simples hasta formas de vida complejas

Dos versiones de video y dos voces distintas, un mismo mensaje. Un mensaje que nos anuncia la evolución de este tipo de herramientas, cómo se está acelerando a pasos agigantados con la irrupción de las herramientas consideradas de Inteligencia Artificial que poco a poco están transformando nuestra realidad. Nos permiten crear contenido multimedia de formas que hace solo unos años parecían inalcanzables.

Estamos viviendo tiempos emocionantes en los que la tecnología nos lleva a nuevos horizontes de expresión y narración donde el único límite es nuestra propia imaginación. A medida que continuamos explorando las posibilidades que brinda esta tecnología, debemos estar atentos a los desafíos éticos y legales que conlleva y utilizarla con responsabilidad para forjar un futuro auténtico.

Debemos mantenernos alerta y sobre todo críticos ante los contenidos que consumimos. A medida que las herramientas de inteligencia artificial continúen avanzando existe la posibilidad de que algunos de ellos sean manipulados con objetivos maliciosos o engañosos. La verificación de la autenticidad de las fuentes y la corroboración de la información se vuelven aún más críticas en este nuevo paisaje que se vislumbra.

La responsabilidad recae tanto en los creadores de contenido como en los consumidores para discernir entre lo real y lo manipulado. La creatividad y la tecnología están llevando el arte de la narración a nuevas alturas, pero debemos abordar este poder con cautela y ética para garantizar un futuro en el que la verdad y la autenticidad sigan siendo pilares fundamentales de nuestra sociedad.

Alberto Méndez

Manipulación de audio en videos

nov. 1, 2023

Alberto Méndez

¿Necesitas ayuda?

Artículos relacionados

API REST con FastAPI, PostgreSQL y Docker: Guía …

Creamos un generador de propósitos de Año Nuevo …

La depuración de errores durante el Desarrollo de …

Nuestro trabajo

Alberto Méndez

Manipulación de audio en videos

nov. 1, 2023

Alberto Méndez

¿Necesitas ayuda?

Artículos relacionados

API REST con FastAPI, PostgreSQL y Docker: Guía …

Creamos un generador de propósitos de Año Nuevo …

La depuración de errores durante el Desarrollo de …

Nuestro trabajo

Google Analytics

Lightbox

Disqus

Youtube

Cookies