No son voces de ultratumba, son comandos ocultos que los asistentes de voz reconocen y los humanos no

Google Allo

A medida que nos vamos habituando a los asistentes de voz y que éstos se encuentran en más dispositivos, van sucediéndose más situaciones como la que vimos hace una semana de los pedidos en masa debido a que los Amazon Echo obedecían a los televisores. Pero al parecer existen unos comandos ocultos que sólo los asistentes de voz entienden, mientras que a nosotros los humanos nos parecen más bien unas voces de ultratumba.

Lo han mostrado los investigadores que han presentado el trabajo titulado "Hidden Voice Commands". Lo que han logrado es que mediante unas modificaciones un comando de voz humano sea muy poco entendible por nosotros mientras que los asistentes de voz lo reconocen sin problemas, de modo que obedecen a la petición.

Cuando el "más allá" está sólo a tres metros

Los investigadores han desarrollado dos kits de comandos ocultos según el tipo de víctima: uno para Google Assistant y otro para un programa de reconocimiento de voz open source (CMU Sphinx speech recognition system), disponibles en este enlace (especificados como caja blanca y negra). Si comparamos vemos que hay ligeras diferencias en el audio entre uno y otro, pero que en ambos casos no son demasiado entendibles por seres humanos.

Eso sí, como indican en la explicación el hecho de saber qué se va a escuchar puede predisponernos y condicionar la escucha, entendiéndola mejor al saber a qué nos enfrentamos, cosa que no ocurriría si alguien emitiese estos sonidos en una situación normal (yendo en autobús, en un restaurante, etc.). Es por ello que tampoco dieron detalles a los testers humanos en su trabajo, quienes fueron incapaces de "traducir" el comando (sólo un 25% intentó al menos escribir media frase).

También hay ciertas diferencias según de qué comando se trate. Según especifican el comando "OK, Google" sí se entendió en un 90% de las veces, pero la cosa cambia cuando se trata de la orden en sí, ya que los testers humanos lo pudieron entender sólo el 20% de las veces (frente al 95% de Google Assistant).

Las diferencias de entendimiento según el comando y el receptor (humano o no).

¿Cómo lograron estos comandos tan efectivos como escalofriantes? Recurriendo a algoritmos complejos, de modo que iban mejorándolos según obtenían órdenes que el oído humano no entendiese bien y que fuesen entendibles por máquinas. Además, lograr los comandos para engañar a Google Assistant suponía algo más de reto al no disponerse de manera pública cómo procesa las órdenes humanas.

Por suerte, la distancia es uno de los factores limitantes. En el vídeo vemos que ponen el altavoz (que emite la locución) a unos 3 metros, y especifican que a partir de unos 3,6 metros los comandos son inefectivos. No obstante, un radio de 3 metros es suficiente para que estos comandos se usen con discreción, más aún teniendo en cuenta que son efectivos aunque haya ruido de fondo. También influye el que el móvil escuche la locución de manera directa o a través de YouTube (de ahí que probando en casa puede que salga un porcentaje menor de efectividad)

¿Estamos indefensos ante los comandos de ultratumba?

Hay factores de los asistentes de voz que son beneficiosos para el uso (más aún para quienes aún no los tenemos integrados en nuestra rutina), como los sistemas tipo "always-on" que hacen que podamos recurrir siempre a ellos, pero que a la vez suponen que estemos siempre expuestos. En The Atlantic también mencionan hablando de estos comandos ocultos los nuevos auriculares de Apple, los famosos Air Pods, que también permiten que haya un acceso constante a Siri.

Esto, junto a un número de sensores que parece ir en aumento en la industria, condiciona que sea "más fácil" engañar a los teléfonos. Es decir, a mayor número de sensores, mayor probabilidad de que alguien ajeno tome control (micrófonos, cámaras, etc.), algo que se conoce en el ámbito de la investigación en seguridad como "incremento de la superficie de ataque".

¿Qué amenaza entonces implica que nuestro dispositivo obedezca estos comandos ajenos? Más allá de la broma de que envíe un mensaje embarazoso o similares, lo que vemos es que el asistente obedece y entiende perfectamente el comando cuando se le pide que abra un sitio web, por lo que uno de los peligros es que se le ordene abrir una con malware o de las que provocan fallos como la que vimos hace meses para los iPhones.

Google Assistant

En este sentido, como es habitual en estos trabajos, tras probar que existe la posibilidad de ataque o engaño los investigadores trataron de idear maneras de mejorar los sistemas para evitar la efectividad de estos comandos ocultos. Determinaron que no es suficiente con una notificación (dado que puede ser ignorada o ni siquiera oída en según qué ambientes) o la confirmación que comentábamos antes, matizando que además la función de que sólo reconozcan una voz no siempre funciona bien del todo.

¿Cuál es entonces la solución que proponen? El machine learning, es decir, el aprendizaje automático, aplicándolo en el sentido de que los dispositivos sean capaces de diferenciar una voz humana de esas voces procesadas. También el aplicar filtros, de modo que los comandos procesados no superen la validación y si lo hiciesen los humanos, aunque esto dificultaría el entendimiento por parte del asistente y los fabricantes podrían mostrar rechazo ante la idea de incorporarlos.

Vía | The Atlantic