¡Las notas de voz son peligrosas! Así usan los hackers los audios de WhatsApp para clonar tu voz y vaciar tus cuentas bancarias

Un informe recientemente publicado afirma que es posible emplear software de inteligencia artificial para tomar un registro de la voz de cualquier persona con fines maliciosos. Según los investigadores detrás de este informe, cuando este software sea perfeccionado, cualquier hacker podría crear clips de audio falsos, haciendo parecer que una persona dice cualquier cosa que deseen los atacantes.

Esta investigación fue elaborada por los expertos de Baidu, el gigante del Internet chino, quienes demostraron la forma en que un modelo generativo podría aprender todas las características posibles sobre la voz de una persona, replicando fielmente estas características en una muestra de audio completamente nueva.

En un primer ejemplo, los expertos usaron el clip de voz de una mujer mencionando: “Los periódicos regionales han superado a los títulos nacionales”. Después de pasar esta muestra por el software de inteligencia artificial, obtuvieron una nueva nota de voz mencionando: “Los artículos grandes deben colocarse en contenedores para su eliminación”.

Aunque el resultado aún dista mucho de considerarse perfecto, las muestras de audio obtenidas del software sí pueden ser confundidas con la nota de voz original, por lo que incluso los usuarios podrían tener problemas para identificar su propia voz.

Sobre el trabajo que involucró este software, los expertos mencionan haber recurrido a dos enfoques distintos para la creación de un sistema de clonación neuronal. El primero de estos, definido como adaptación de locutor requiere el entrenamiento de un modelo alimentado por miles de muestras de voz; para ello, se utilizó el conjunto de datos LibriSpeech, con más de 2,500 mil registros de hablantes de todo el mundo.

Por otra parte, la codificación de locutor implica entrenar a un modelo para que aprenda las incrustaciones de voz particulares del hablante, reproduciendo muestras de audio con un sistema separado entrenado por millones de registros.

La idea de que la inteligencia artificial pueda ser manipulada con fines maliciosos es una alerta de seguridad temprana en un mundo en que la tecnología avanza a pasos agigantados. Además, hoy en día obtener muestras de voz de una persona es la tarea más trivial del mundo, ya que basta con usar nuestros smartphones para grabar una llamada telefónica o solicitarle a una persona una nota de voz vía WhatsApp.

Para conocer más sobre riesgos de seguridad informática, malware, vulnerabilidades y tecnologías de la información, no dude en ingresar al sitio web del Instituto Internacional de Seguridad Cibernética (IICS).