Cómo espiar llamadas telefónicas a través de sensores como acelerómetros y giroscopio usando una nueva técnica de ataque: EarSpy

Escuchar a escondidas a los usuarios de teléfonos inteligentes siempre es un riesgo reconocido y debería ser una preocupación seria para los usuarios de estos dispositivos. Escuchar a escondidas una conversación es más fácil para un oponente mediante el uso de la grabación de llamadas. Por otro lado los sistemas operativos de los teléfonos móviles están poniendo límites a la capacidad de las aplicaciones de terceros para grabar conversaciones telefónicas al aprovecharse de los micrófonos para evitar la mayoría de los ataques que dependen de tener acceso al micrófono.

Un grupo de investigadores ha creado un ataque de espionaje diseñado para teléfonos inteligentes Android. Este ataque puede en diversos grados determinar el género y la identidad de la persona que llama e incluso puede descifrar una conversación privada.

El objetivo del ataque de canal lateral que recibió el nombre de EarSpy y está diseñado para capturar lecturas de datos de sensores de movimiento inducidas por reverberaciones de los altavoces de los oídos en dispositivos móviles, es investigar nuevas vías abiertas para las escuchas.
Al usar un ataque de canal lateral los atacantes pueden eludir las medidas de seguridad al obtener información sobre el habla de los sensores de movimiento que tienen acceso sin permiso. Es un gran riesgo para la privacidad que la gente ignora pero los académicos lo han estado investigando extensamente durante la última década. Los investigadores han descubierto que los sensores de movimiento, las pulsaciones de teclas en las pantallas táctiles, la escritura con lápiz óptico y el uso de dispositivos externos tienen el potencial de usarse para espiar. Además, ha habido informes en el pasado de escuchas ilegales utilizando sensores de luz y giroscopios.

Los sensores de movimiento que se incorporan a los teléfonos inteligentes son los que tienen la reputación más conocida de ser susceptibles a las escuchas. Los adversarios emplean sensores de movimiento para recopilar audio (p. ej., diálogo de voz), entradas a través de pantallas táctiles e incluso locales interiores son algunos ejemplos. Debido a que los oponentes no necesitan una autorización expresa para recopilar datos sin procesar de los sensores de movimiento por ello espiar a través de ellos es un proceso simple y sin complicaciones.
Los ataques de espionaje provocados por la vibración generada por los altavoces de los teléfonos han sido objeto de una gran cantidad de investigación y desarrollo. Los parlantes para escuchar a escondidas son un parlante interno incorporado en un teléfono inteligente que se puede usar para escuchar la conversación mientras se sostiene el teléfono en la oreja. Sin embargo, se han realizado muy pocos trabajos sobre el tema de los altavoces para los oídos que escuchan a escondidas. Debido a que la mayoría de las personas no están dispuestas a revelar comunicaciones importantes especialmente en lugares públicos, espiar el altavoz del oído es el vector de ataque más viable que puede espiar las llamadas telefónicas.
Investigaciones recientes han demostrado que los sensores inalámbricos de alta resolución pueden usarse para detectar las vibraciones que generan los altavoces para los oídos, incluso cuando están colocados muy cerca de la víctima.
Una pregunta obvia que se debe hacer es si es factible o no escuchar conversaciones utilizando los sensores de movimiento incorporados en los altavoces para los oídos. Como resultado del aspecto de permiso cero de los sensores de movimiento lo que significa que no es necesario colocar ningún dispositivo en el entorno de la víctima ni hackear ninguno de esos dispositivos este tipo de configuración de ataque es bastante práctica. Investigaciones anteriores no pudieron descubrir evidencia suficiente de que los altavoces para los oídos tuvieran un efecto en los acelerómetros.

Por otro lado hemos visto que la calidad de audio de los parlantes de los teléfonos inteligentes es cada vez mejor y más sofisticada. Los teléfonos inteligentes insignia recientes han seguido la tendencia de incluir parlantes estéreo lo que requiere la colocación de dos parlantes en la parte superior e inferior del dispositivo. En la mayoría de las situaciones los parlantes convencionales para los oídos están siendo reemplazados por parlantes estéreo que tienen una presencia más pronunciada. Como consecuencia directa de esto los teléfonos que están equipados con parlantes estéreo generan una mayor presión de sonido en comparación con los teléfonos que solo tienen parlantes estándar.

Los sensores de movimiento incluidos en los teléfonos inteligentes modernos, como el acelerómetro y el giroscopio, tienen un alto grado de sensibilidad y están diseñados específicamente para detectar vibraciones en el teléfono. La investigación existente ha demostrado que el sensor de movimiento es capaz de detectar vibraciones en el cuerpo del teléfono que son generadas por el sonido que se envía desde el altavoz que está incorporado en el dispositivo. La idea fundamental es que las ondas sonoras que viajan por el cuerpo del smartphone provocan vibraciones que luego pueden ser detectadas por el sensor de movimiento ubicado en dicho smartphone. Para ser más exactos Spearphone descubrió que el acelerómetro de los teléfonos inteligentes tenía una alta reacción a las frecuencias de sonido que iban desde 100 Hz a 3300 Hz. Debido al hecho de que las señales de aliasing de baja frecuencia se forman a partir del sonido primario en una variedad de frecuencias, este fenómeno demuestra que el acelerómetro es capaz de capturar una gran cantidad de información en estas señales. Además compararon las respuestas de frecuencia de acelerómetros y giroscopios y encontraron que la respuesta del acelerómetro era más fuerte que la respuesta del giroscopio en el rango de frecuencia de 100 Hz a 3300 Hz. Esto se descubrió cuando compararon las respuestas de frecuencia de ambos dispositivos. Como resultado el único tipo de sensor que usamos en nuestras investigaciones es un acelerómetro. Esto se descubrió cuando compararon las respuestas de frecuencia de ambos dispositivos. Como resultado el único tipo de sensor que usamos en nuestras investigaciones es un acelerómetro. Esto se descubrió cuando compararon las respuestas de frecuencia de ambos dispositivos. Como resultado el único tipo de sensor que usamos en nuestras investigaciones es un acelerómetro.

En sus estudios los investigadores utilizaron un teléfono inteligente OnePlus 7T y OnePlus 9 además de una variedad de conjuntos de audio pregrabados que solo se reproducían a través de los altavoces de los oídos de los dos dispositivos. La música solo se tocaba en una dirección.

Durante una conversación simulada, los investigadores también utilizaron una aplicación llamada “Physics Toolbox Sensor Suite” para registrar datos del acelerómetro. Luego enviaron esos datos a MATLAB para que pudieran ser analizados y las características pudieran extraerse de la transmisión de audio.

Con el fin de reconocer el contenido de voz, la identidad de la persona que llama y el género, se entrenó un sistema de aprendizaje automático (ML) utilizando conjuntos de datos que eran de fácil acceso.

Aunque los resultados de las pruebas variaron según el conjunto de datos y el dispositivo en general indicaron que escuchar a escondidas a través del altavoz del oído puede ser una opción viable.

El OnePlus 7T pudo identificar el género de las personas que llaman con una precisión que va del 63,0 % al 98,7 %, la categorización del identificador de llamadas con una precisión que va del 63,0 % al 91,2 % y el reconocimiento de voz con una precisión que va del 51,8 % al 56,4 %.

La cantidad de volumen que los usuarios suben en sus auriculares o audífonos podría ser un factor que reduce la efectividad de un ataque EarSpy. Un volumen más bajo podría evitar las escuchas a través de este ataque de canal lateral, y también hace que la experiencia auditiva sea más placentera para el oído.

La dispersión de la reverberación producida por los altavoces también se ve afectada por la configuración de los componentes de hardware del dispositivo y el grado de precisión del montaje.

La precisión de los datos de voz que se extrajeron se reduce aún más cuando el usuario se mueve o cuando se agregan vibraciones del entorno.

Android 13 tiene una limitación que impide que los usuarios recopilen datos de sensores sin obtener primero permiso para muestrear velocidades de datos superiores a 200 Hz. Aunque esto dificulta el reconocimiento de voz a la frecuencia de muestreo normal de 400 Hz a 500 Hz, la precisión solo se reduce en aproximadamente un 10 % cuando el ataque se lleva a cabo a una frecuencia de muestreo de 200 Hz.