Me dedico a desarrollar interfaces de voz: así es diseñar apps en la era de Alexa, Siri y Google Home

De ser una extravagancia de las antiguas series de ciencia ficción a entrar con fuerza en los hogares de medio mundo. En cuestión de unos años los interfaces de usuario de voz —VUI, en sus siglas en inglés— han ganado un terreno inimaginable hace solo unas décadas. Al éxito de asistentes virtuales como Siri, Google Assistant o Alexa, que permiten a los usuarios interactuar con sus smart phones o tablets, entre otros dispositivos, sin emplear las manos o tener que fijar la vista en una pantalla le ha seguido —en los últimos meses— el “boom” de los altavoces inteligentes.

Según el estudio publicado en noviembre por Ymedia Vizeum, en 2017 las ventas de Amazon Echo se dispararon un 279% hasta alcanzar los 27 millones de aparatos. Google no se queda atrás y asegura que desde que distribuye el Home Mini ha vendido un Google Home “cada segundo”.

El éxito del VUI sin embargo va mucho más allá de los altavoces inteligentes. En septiembre Amazon presentó un amplio surtido de productos en los que ha integrado Alexa: un microondas, un reloj de pared, un dispositivo para vehículos… Solo el asistente de Amazon dispone ya de decenas de miles de skills, las funcionalidades que se le pueden añadir. Los estudios corroboran la fuerza con la que se implanta el VUI. Aunque a día de hoy apenas el 16% de las búsquedas por Internet se hacen a través de la voz, Baidu vaticina que en 2020 lo serán ya más de la mitad.

“La proyección es de desarrollo y crecimiento. De momento la gente ha empezado a familiarizarse con los asistentes por la compra de los smart speakers y eso ha tenido una velocidad de adopción que ha superado a la del móvil, pero una vez que nos acostumbremos a usar los asistentes el dispositivo va a ser lo de menos”, explica Íñigo Aguirre, director de marketing de Fundación Ibercaja y experto en Marketing para Interfaces y Apps de voz.

Amazon ha presentado un amplio surtido de productos que integran Alexa: desde un microondas o un reloj de pared a un dispositivo especial para vehículos. El asistente de Amazon dispone además de decenas de miles de skills

Una de las claves —apostilla Aguirre— es la efervescencia de un campo en pleno desarrollo. “Está todo a medio construir, se está mejorando sobre la marcha. Hay determinados cambios que tienen lugar de semana en semana y suponen casi un auténtico cambio de las reglas de juego”, abunda.

“En el ámbito doméstico la mayoría de los estudios señalan que va a crecer una barbaridad. Por ejemplo, aseguran que ahora mismo en EEUU uno de cada cuatro hogares tiene un altavoz inteligente y que en 2022 serán dos de cada cuatro", ilustra Aguirre antes de recordar que Google llegó a publicar a principios de año su previsión de que, de forma inminente, se alcancen los 1.000 millones de dispositivos con el asistente instalado. Lo que pasa es que hay que distinguir entre asistente instalado en el móvil y gente que lo use”, apostilla el experto.

Altavoz inteligente de Amazon.

La pregunta del millón es ¿Quién está detrás de esa explosión de interfaces de voz? ¿Qué profesionales hacen posible la irrupcion del VUI? Para dar forma a los asistentes sonoros es necesario un equipo con técnicos de perfiles diversos: lingüistas, desarrolladores, diseñadores que se centren en el apoyo visual y la experiencia de usuario… “Es lo bonito, que hay personas de muchos campos distintos. Amazon tiene incluso gente que escribe guiones de teatro, novelistas… para dar personalidad al asistente”, comenta Aguirre: “Al final es una confluencia”.

Carlos Muñoz-Romero y Nieves Ábalos, de Monoceros, estudio de innovación centrado en las experiencias conversacionales, trabajan en la creación de aplicaciones de voz para asistentes como Amazon Alexa o Google Assistant. Ambos son ingenieros informáticos. Tras un período en una empresa tecnológica —en el área de innovación de BEEVA— decidieron lanzar Monoceros. “Profundizamos mucho en estas tecnologías y el estado en el que se encontraban, sobre todo en español”, comenta Muñoz-Romero, quien asumió la creación del departamento de innovación de BEEVA (BEEVA Labs) como Director de Innovación en España y México.

Ábalos empezó a estudiar el sistema de diálogo multimodal ya durante su época universitaria, en Granada. Su proyecto de fin de carrera versó sobre la materia y —fascinada por su proyección y el abanico de posibilidades que ofrecía— decidió cursar un máster y empezar un doctorado. “Lo que tenía en el proyecto era un interfaz al que le podías pedir, por ejemplo, que encendiera la luz. Luego veías cómo ocurría en una interfaz simulada. De eso hace diez años. Ahora se puede hacer realidad con Alexa o Google Home”, señala la ingeniera. Desde hace casi una década trabaja en el Procesamiento del Lenguaje Natural, Sistemas de Diálogo e Inteligencia Artificial.

“Durante estos años he explorado y me he formado más en la parte de diseño de conversaciones. Porque es cierto que la tecnología te permite hacer muchas cosas, con las limitaciones del idioma o con ciertas limitaciones técnicas, pero la parte de diseño de conversaciones es muy importante”, señala Ábalos. Al igual que Aguirre, coincide en la enorme riqueza de perfiles que requiere el trabajo con VUI: lingüistas, diseñadores, técnicos que dominen data scientist, procesamiento del lenguaje natural o con nociones sobre psicología, etnografía, sociología… “Gente que entienda la casuística y lo que hay detrás de una conversación y sea capaz de llevarlo a la tecnología”.

Muñoz-Romero destaca también el nivel de desarrollo que han logrado las interfaces de voz a lo largo de los últimos años. Tanto en inglés como en otros idiomas. “Gracias a los grandes, la parte de comprensión y Text-to-Speech (TTS) ha mejorado mucho este último año en castellano. En inglés siempre van uno o dos pasos por delante de nosotros”, valora. En su opinión, la implantación del VUI seguirá en aumento. “Ahora mismo se conoce más por los altavoces inteligentes, pero están apareciendo ya otros dispositivos con estas tecnologías integradas”, comenta Muñoz-Romero: “El futuro será multimodal, se podrá interactuar a través de pantalla y voz”.

“En Estados Unidos se ha visto que la adopción ha sido brutal. El empuje de Amazon y Google para que estas interfaces estén en casa de todos ha sido evidente y ha funcionado. La interacción más natural que hay con la tecnología es la voz. Cuando empecemos a palpar sus beneficios aplicados a casos de uso nos preguntaremos ¿Cómo no existía esto antes? Entonces veremos cómo la voz estará implantada sí o sí en España”, reflexiona Ábalos.

Diseñadores para interfaces de voz

Jesús Martín afronta el desarrollo de interfaces de voz desde otra área: la del diseño. Tras estudiar Publicidad, especializarse en diseño audiovisual y centrarse en la experiencia de usuario, Martín terminó en el área de innovación de una empresa tecnológica. Ahora trabaja para Amazon, en el equipo de Alexa. “Para mí fue una transición natural. Muchas de las herramientas que empleaba en páginas web empecé a aplicarlas a conversaciones. Algunas funcionaban y otras no porque son específicas del medio para el que se diseñaron. Recuerdo que cuando pasé del diseño offline al online, al entorno digital, fue igual. Las normas que subyacen de la Gestalt funcionan. Hay que conocer los lenguajes propios de cada medio. Del offline al online tuve que aprender cuánto tenía de ancho una pantalla, cómo funcionan los enlaces... Y en el mundo de la voz tuve que aprender qué tipo de asociaciones de palabras funcionan mejor para los usuarios”, recuerda.

Que un diseñador se dedique a los interfaces de voz —confiesa Martín— todavía le resulta curioso a no poca gente. “Es algo que muchos diseñadores se preguntan. A muchos parece que les da miedo meterse porque al final con lo que te relacionas es con un audio o con un texto. Se piensa que es una labor de escritor”, reconoce: “Mi trabajo consiste más en cómo estructurar la información que va a recibir el usuario, es mucho más parecido a la labor que se desarrolla en una página web”.

“Cuando se crea una web hay una home y te planteas qué debe haber para que no esté recargada y el usuario sepa lo que tiene que hacer. Con un interfaz de voz es igual, aunque con otras limitaciones. No tienes espacio físico, pero sí auditivo. Tienen que ser mensajes cortos con un contenido muy claro. Al final el trabajo del diseñador consiste en intentar que se cumpla con el objetivo de la interfaz y ayudar también a la gente a definir cuál es su alcance”, comenta.

¿Significará el boom del VUI que desaparecerán otros tipos de interfaces? “No lo creo. Será un medio más” —opina Martín, convencido sin embargo de la incidencia que tendrá en su oficio— “Igual que hay diseñadores que siguen prefiriendo dedicarse a los carteles offline porque les encanta la experiencia del papel o que no les gusta el diseño para móviles o apps, habrá algunos a los que les guste más la parte de conservación y otros preferirán mantenerse en los interfaces. Las pantallas son algo que los diseñadores tenían asimilado y de repente plantearles algo que no las tiene… Desde hace unos años se intenta entender el concepto del diseño como algo más amplio”.

Javier Martinez es ingeniero en telecomunicación por la Universidad Politécnica de Valencia y desde hace casi dos décadas se dedica al sector de TI español, en el que ha desempeñado varios cargos en HP y NetApp. En la actualidad es el responsable de preventa en España de Google Cloud. Entre otras herramientas, trabaja con Dialogoflow o los asistentes de voz. “Más que en lo que es la experiencia de usuario, mi perfil es centrarse en cómo hacer que todo eso luego interaccione con el mundo que hay detrás. Todos los agentes que hay tienen que terminar interactuando cuando hablamos del mundo empresarial. Primero hay que construirlo y yo soy especialista en la parte trasera, en cómo construir la lógica y los diferentes estados de las conversaciones”, explica.

Al igual que el resto de técnicos que trabajan con el VUI, Martínez reconoce el enorme potencial de la herramienta. También el desarrollo que ha logrado en muy poco tiempo. “Es una tecnología que hasta hace unos años estaba muy limitada, que no funcionaba bien. Esto ha cambiado de forma radical en los últimos tres o cuatro años. A día de hoy tenemos una tecnología que hace que el reconocimiento de voz sea muy bueno. De hecho estamos en ratios por encima de los humanos. ¿Qué ocurre? Que la voz es tres veces más rápida que una persona tecleando y eso hace que al final sea un método de entrada a priori interesante a cualquier aplicación”, anota.

Los expertos coinciden en señalar el potencial del VUI por las ventajas que ofrece a los usuarios, aunque reconocen que "no vale para todo" y vaticinan que en el futuro se complementará con el resto de interfaces

Entonces… ¿Son los interfaces de voz un recurso imbatible? No. Martínez reconoce que el VUI “no vale para todo” ni resulta práctico en todos los contextos y casos. “No puedo estar en mitad de una reunión y ponerme a hablar con mi asistente o dictar notas durante una clase; pero si vas conduciendo, con las manos en el volante... Hay un montón de situaciones en las que la voz no es que sea más rápida, sino que es la única posibilidad de interrelación que tienes con un dispositivo. Yo creo que realmente revoluciona la forma en cómo interactuamos con la tecnología”, zanja.

Francisco Rivas estudió Ingeniería en Computación en Venezuela —equivalente a la Licenciatura en Informática en España— y trabajó en el área de Química Computacional del Instituto Venezolano de Investigaciones Científicas (IVIC), donde escribía algoritmos de optimización. De allí pasó primero al Grupo de Sistemas y Comunicaciones de la Universidad Rey Juan Carlos (URJC) en calidad de investigador y después a una consultora en el sector de las telecomunicaciones. Durante varios años se empleó como Solutions Architect en Ericsson. El cambio, explica, lo dio impulsado por el potencial del VUI. “El año pasado descubrí Alexa y decidí dedicarme a ello”, comenta Rivas, que ahora trabaja en ViiZ y se centra en el desarrollo independiente de skills para Alexa.

“Desde que empezamos a visitar clientes hemos notado que la gente empieza a conocerlo cada vez más. Hay curiosidad, pero a las empresas les está costando apostar por esto con fuerza”, reflexiona Rivas, optimista sin embargo sobre el futuro del VUI. “El canal es muy nuevo. Ocurre lo mismo que pasaba en su momento con las aplicaciones móviles. Cuando te ofrecían comprar algo a través de ellas la gente decía que no le gustaban porque no sabían dónde iban a parar sus datos, pero en EEUU ya es completamente natural y aumenta cada vez más. En España vamos poco a poco. En este primer trimestre es cuando vamos a ver un despegue importante”, vaticina.

Imágenes | Flickr (Brother UK), (BestAI Assistant)