Estos son los profesionales de letras trabajando en tecnología que consiguen que tu asistente de voz te entienda

Estos son los profesionales de letras trabajando en tecnología que consiguen que tu asistente de voz te entienda

De los casi 1,3 millones de universitarios que hay en España, poco más de 53.000 están matriculados en algunas de las ramas de filología y lengua (la mayoría, 18.295 alumnos, en lengua inglesa). Si uno consulta las salidas profesionales de estos estudios, las propias universidades citan cosas como planificación lingüística, traducción, enseñanza o investigación.

Pero también está la lingüística computacional, una disciplina reciente que se ha incorporado a los planes de estudio de las licenciaturas y grados de formación lingüística y que consiste, a grandes rasgos, en el estudio de la lengua y el desarrollo de aplicaciones lingüísticas con medios computacionales. Es decir, que son responsables de eso que conocemos como procesamiento del lenguaje natural y de que las máquinas (como los asistentes de voz) nos entiendan cuando hablamos con ellas.

Para trabajar como lingüista computacional no solo hay que saber de morfología, sintaxis y semántica, sino también de programación y algo de código. Hemos hablado con cuatro de ellos para que nos cuenten más a fondo en qué consiste su trabajo y cómo se enfrenta una persona “de letras puras” a algo como aprender a programar.

Llegué casi de casualidad

Salvo Juan Cabanilles (que trabaja en I+D de Samsung en el desarrollo de su asistente virtual), el resto de nuestras protagonistas reconocen que llegaron a esta profesión de casualidad.

Foto Anamoreno

Ana Moreno, lingüista computacional en Bitext, regresó a España después de haber estado 3 años en Alemania trabajando para hacer el análisis de sentimiento de las revisiones y comentarios que se hacían en una determinada página web sobre las experiencias hoteleras. Mientras, Carmen Torrijos lingüista computacional en el Instituto de Ingeniería del Conocimiento (IIC), empezó también como traductora y participa desde 2013 en proyectos de Procesamiento de Lenguaje Natural creando gramáticas computacionales, taxonomías y corpus anotados para procesos de aprendizaje automático.

Pilar Manchón, Senior Director of Research Strategy in Google AI, es, quizá, la que tiene un perfil más mixto en esto de las letras y las ciencias. Su primera licenciatura es de lingüista inglesa y germánica por la Universidad de Sevilla, aunque llegó a matricularse en la Facultad de Física tras hacer un bachiller en ciencias puras. Aunque terminó Filología, sentía que su pasión por las ciencias y las letras no estaba completa. Se fue a Bélgica de Erasmus para hacer traducción e interpretación, pero se adentró en las herramientas de traducción automática y al volver a Sevilla, decidió pedir varias becas internacionales para terminar de formarse en esta rama.

Así es mi día a día

Por lo que nos cuentan estos profesionales, el día a día de un lingüista computacional es de todo menos rutinario. “Es muy variopinto”, señala Juan Cabanilles, que trabaja en el motor que reconoce la voz de manera automática cuando una persona habla al teléfono y hace una petición. “Hay que convertir esa voz en texto. Puedo abrir un Excel, pero también una consola, un editor de texto para hacer un script. No trabajo en una plataforma, sino con archivos binarios ejecutables para ver varios estados del motor. Y hago un poco de búsqueda en software”, nos cuenta.

“El primer día que me dijeron “abre la consola” pregunté que dónde estaba la Nintendo porque no tenía ni idea de qué me estaban hablando” Ana Moreno

Pero hay trabajos que dependen del proyecto concreto en el que estén trabajando. “Antes tenía un trabajo más constante, siguiendo la metodología Scrum”, nos cuenta Ana Moreno, que ahora tiene que hacer su labor con aplicaciones tan dispares como Excel, documentos de texto, TXT o la consola para categorización. En estos momentos, trabaja en un sistema de categorización para el sector automovilístico. “Esos datos se traducen con herramientas de visualización con las que se ve en qué concesionarios se quejan más por determinadas palabras”, nos cuenta.

Es decir, que el trabajo se realiza con ordenador y, en general, viendo mucho código. “Son líneas de texto que se trabajan de forma masiva”, nos cuenta Carmen Torrijos, quien se dedica a clasificar y categorizar los millones de datos de estos textos con los que trabaja. Una categorización con la que después aprenderán los sistemas de reconocimiento del lenguaje.

Mi relación con el código…

Estos profesionales han tenido que aprender, en muchos casos, lenguajes de programación para poder hacer su trabajo.

Pilar Manchón recuerda que cuando le concedieron una beca de laCaixa para estudiar en Cambridge, el departamento al que iba dependía de Ingeniería, dado que había que aplicar técnicas como el Machine Learning al lenguaje natural. "Había que superar un examen de acceso. Te preguntaban sobre algoritmos y yo venía de letras. Así que por mi cuenta miré cuáles eran las técnicas más conocidas y saber el estado del arte de las cosas que me interesaban para saber qué algoritmos se aplicaban y por qué”, explica.

Foto Carmen

“No es que no tuviera conocimientos de programación, es que no sabía ni utilizar un ordenador”, recuerda, explicando que en aquellos años estos sistemas no estaban tan extendidos como hoy en día. “Me tiraba las horas muertas aprendiendo programación y a manejarme con el código”. Sin embargo, a renglón seguido añade que, más que una barrera de formación, en muchos casos lo que hay es una barrera mental. “No he considerado nunca que tuviera unas barreras que no se pudieran derribar con esfuerzo y dedicación”, sentencia. “En Edimburgo aprendí a programar en Prolog. Cuando fui a Stanford tuve que hacerlo en C y C++. Las personas de letras no tienen menos inteligencia, aunque les falte esa base para aprender a programar”, insiste.

En general, las líneas de código con las que se enfrentan los lingüistas computacionales están ya muy trabajadas y preparadas para su labor. “Los ingenieros te dan el script y nuestro trabajo es completarlo”, explica Ana Moreno, quien también se ha formado en Python. En su caso, lo hizo básicamente por dos razones. Una “para entender la mentalidad de los ingenieros”. En su experiencia, en estos trabajos “te piden que pienses más como computacional que como lingüista. Es decir, que aunque algo esté mal en la sintaxis se trabaja así para que la máquina pueda funcionar”, nos detalla. Pero también aprendió programación para entender más cómo funciona su trabajo “y no hacer la típica labor de ratón. Lo hago para entender por qué pasa lo que pasa en el software cuando se hacen determinadas cosas”. Pero reconoce que el camino no ha sido fácil. “El primer día que me dijeron “abre la consola” pregunté que dónde estaba la Nintendo”, se ríe “porque no tenía ni idea de qué me estaban hablando”.

Carmen Torrijos reconoce igualmente que la parte más dura del trabajo es hacerte computacional cuando no vienes de esta rama. “Solemos tener cierto complejo y dudas. La transformación no es fácil”, explica. Pero, en su opinión, ella ha tenido la suerte de trabajar en un instituto donde se le da mucha importancia a la formación. Una educación que también ha complementado con proyectos de Coursera. “También se aprende con los proyectos y con los plazos marcados por el cliente. El trabajo es colaborativo y aprendes”. Eso sí, aunque conoce Python, confiesa que “no se llega a dominar como lo hace un informático desarrollador”.

… y con los ingenieros que desarrollan este código

Es decir, que aunque todos ellos han tenido que aprender, de alguna forma, a desenvolverse con el código, quienes siguen programando son los ingenieros. Una relación más fácil de lo que pudiera pensarse en un primer momento.

Carmen Torrijos reconoce, eso sí, que al principio suele producirse cierto shock “porque el entorno científico te sorprende. Su pensamiento es más analítico, pero todo se acaba pegando”. En su opinión, es en el análisis de sentimiento donde más puede haber más discrepancia entre ingenieros y lingüistas a la hora de que trabajen juntos, “por la sensibilidad del lenguaje que no tiene todo el mundo”.

"La parte más dura es hacerte computacional. Solemos tener cierto complejo y dudas. La transformación no es fácil” Carmen Torrijos

Pilar Manchón insiste en que “parece que las carreras de ciencias son extremadamente más complicadas que las de letras. Que las personas que estudian letras es porque no son lo suficientemente inteligentes o capaces para hacer carreras técnicas. Las letras tienen su complejidad y no todo el mundo es capaz de resolverlas”. Algo que, en su opinión, se ve muy bien en los equipos multidsciplinares. “Falta una formación humanista muy importante en las aproximaciones matemáticas. ¿Cómo vas a modelar y a aproximarte a un modelo humano si no lo conoces?”.

En su opinión, esta relación depende mucho de la cultura empresarial. “En algunas hay mucho clasismo, en el que ese complejo de la gente de letras de que su conocimiento es menos importante se refuerza. En Google es justo lo contrario”, asegura. Y considera que tanto personas como empresas no deberían permitir esas infravaloraciones para no crear estigmas.

Pero, eso sí, también recomienda ser flexibles y tener aperturas de mira, de forma que un estudio superior no condicione el resto de la vida laboral. “La carrera deben ser los cimientos para seguir aprendiendo, cualquier cosa. Cuanto mejor sea esa base, mejor será nuestra capacidad para seguir aprendiendo”. Y pone su ejemplo. “Estudié la literatura inglesa del siglo XIX. ¿Lo he utilizado? No. ¿Me gustó? Mucho. ¿Me ha permitido entender cosas que otros compañeros no ven? Claro. No tengo una base matemática, pero he ido aprendiendo”.

Pero, en general, podemos decir que la relación es fluida y fácil. “Los ingenieros me enseñan sus consolas y yo les ayuda a traducir. Ellos están acostumbrados a que nos amoldemos a cómo trabajan”, explica Ana Moreno.

Foto Juan

Juan Cabanilles ha trabajado de la mano con un ingeniero en infinidad de tareas. “Al principio del proyecto nos dedicamos a componer un corpus relevante del español. Lo hicimos con ayuda de un software que permitía crear dramáticas generativas del lenguaje como lexicones (lista de vocabulario de entidades concretas, como ciudades o países). En la creación de ese software hay que definir una serie de patrones básicos que un lingüista puede necesitar para generar una gramática generativa. Ese trabajo en la programación lo hace el ingeniero pero el lingüista pide esos requisitos y crear una gramática que sea capaz de generar lenguaje de manera automática. Siempre va a ser un lenguaje artificial, pero lo más próximo al natural para que un motor pueda aprender”, explica. Además, detalla que en la composición de un corpus un programador puede cambiar datos, pero el lingüista tiene que estar encima para que ese corpus sea importante, representativo del lenguaje, empleando para ellos textos literarios o periodísticos.

"Cuando se produce un error, consultamos binarios, ejecutables, hacemos pruebas y lo atajamos con lexicones, morfología, redefiniendo reglas o viendo si es un problema del modelado del lenguaje o acústico" Juan Cabanilles

En su experiencia, es necesario que el lingüista sepa qué es un software, para qué se quiere o sobre el que tiene que trabajar, porque eso permite que haya menos fricción entre las partes. ¿Por qué? “Porque tú te explicas mejor y porque un programador es una persona que se dedica a resolver problemas. Si tú le planteas un problema y una posible resolución, él por los medios que sepa lo va a plasmar. Si el lingüista es capaz de entender cuáles son los límites y herramientas que un programador, tiene esas fricciones se liman”. Sin embargo, reconoce que a veces no es posible “hacerle entender al ingeniero todo lo que tú quieres igual que él no puede hacerte entender todo lo que necesita”.

En su experiencia, lo más importante es conocer el software para poder pedir necesidades a los ingenieros porque un lingüista no ha estudiado para programar, “pero sí para entender el lenguaje, las necesidades para la comprensión de voz y para que un software entienda lo que un usuario dice a una máquina”.

Los acentos y los dobles sentidos

Para Juan Cabanilles, una de las cosas más difíciles de su trabajo es el problema de reconocimiento de ASR (Automatic Speech Recognition), que debe reconocer la voz y plasmarla en texto. “Es un tema complejo y con muchas partes. Casi a diario se me reporta un problema sobre el reconocimiento de una palabra o frase”. Y ahí está el quid de la cuestión: dónde encontrar ese error: “hay que consultar binarios, ejecutables, hacer pruebas para descubrir dónde está el problema y atajarlo de raíz con lexicones, morfología o ver si es una regla que no esté bien definida, comprender si es un problema del modelado del lenguaje o acústico”.

Nos pone otro ejemplo. “Si una persona cecea, dice 'caza' en lugar de 'casa'. Es decir, no tiene nada que ver con el verbo cazar. El modelo se entrena con una serie de audios y transcripciones de esos audios. Si no son de calidad o cuya transcripción no está bien, el código aprende según esos modelos, por lo que descubrir es tipo de errores en el motor es muy complicado”. Y gran parte de su trabajo es, precisamente, descubrir de dónde viene el fallo en cada uno de esos errores.

Se demandan lingüistas pero, ¿para qué?

Estos cuatro profesionales reconocen que su profesión vive un momento dulce y que son unos puestos que están siendo demandados por algunas empresas. “Se demanda mucho porque tampoco hay mucha gente que sepa hacer todo lo que estamos desarrollando empresas como Google”, asegura Manchón, quien cree que esta profesión se paga muy bien en comparación con otro tipo de salidas de los filólogos.

Pero Juan Cabanilles no tiene tan claro que haya demanda para satisfacerla. “En mi carrera, de una clase de 20 personas, solo 3 o 4 nos dedicamos a la lingüística computacional”, rememora. No obstante, también cree que esto está cambiando y que ahora hay más lingüistas que se decantan por esta rama.

Foto Pilar

Pero tampoco tiene claro qué esperan las empresas de un lingüista computacional. En su opinión, “falta información y control de este perfil. Lo demandan, pero no saben las herramientas que necesita para hacer su trabajo. Saben que hace falta, pero no saben a qué se dedican”, reflexiona.

Leticia Martín-Fuertes reconoce que recibe ofertas. “No sé si mucho o pocas” se ríe, pero sí que se producen picos en febrero y octubre. Y, como Juan Pedro, cree que es un trabajo que está bien pagado. “Comparado con un ingeniero quizá menos, pero comparado con el sueldo de recién licenciado está bien”.

Para Carmen Torrijos el problema es que, aún siendo una profesión en auge, no hay muchas empresas que se dediquen a un sector tan específico como el del procesamiento del lenguaje natural. “Cada vez más, pero no puedes comparar la cantidad de trabajo que hay para un lingüista computacional que la que hay para un traductor; sigue habiendo mucho más para el segundo”, avisa, aunque los primeros están “quizá un poquito mejor valorados”, también en el plano económico. “Está mejor pagada que la mayoría de profesiones a las que puedes hacer cuando estudias este tipo de humanidades”, concluye.

Si quieres ser lingüista computacional, toma nota

Esta misma experta reconoce que para trabajar en este campo tienes que saber programación “y cuanto más sepas, mejor”. También recomienda dominar algo la estadística y tener un buen nivel de inglés. Pero, sobre todo, asegura que hay que estar muy abierto al aprendizaje continuo. “Cada 3 meses tienes que hacer algún curso de reciclaje o de una nueva tecnología”, asegura, “porque ningún proyecto se parece al anterior”.

"La carrera deben ser los cimientos para seguir aprendiendo, cualquier cosa. Cuanto mejor sea esa base, mejor será nuestra capacidad para seguir aprendiendo" Pilar Manchón

Es decir, que como añade Cabanilles “hay que echarle muchas horas por tu cuenta”, sobre todo en lo que a programación se refiere, para entender y desenvolverse con las cosas más básicas. Para él, un lingüística es alguien que estudia la lengua como una ciencia, no es un filólogo, por lo que hace falta un cierto nivel de abstracción con respecto a la lengua, “no estar enamorado de ella”.

Para Ana Moreno, en el fondo hay que ser un poco friki. “Hay que leer mucho sobre todo lo que se hace, porque siempre aprendes cosas”. Y, para ella, LinkedIn es el arma clave. “Hay muchos grupos e influencias. Con los post es con lo que más he aprendido”, reconoce.

Pilar Manchón refuerza que hay que tener una importante base lingüista formal y una base computacional, tanto programación como las técnicas que se utilizan. “Soy muy partidaria de la formación multidisciplinar”. Y recomienda también “ser flexible, adquirir experiencia que generalmente no está al lado de casa, independientemente de lo que estudies. Hay que salir de casa, a otras zonas de España y del mundo, aprender otros idiomas, otras culturas. Todo eso te da una apertura de mente. Crea una riqueza profesional que te permite crecer y ascender a puestos más relevantes. Tan importante es la formación específica como el tener esa experiencia diversificada”.

-
La noticia Estos son los profesionales de letras trabajando en tecnología que consiguen que tu asistente de voz te entienda fue publicada originalmente en Xataka por Arantxa Herranz .




Fuente: Xataka
Enlace: Estos son los profesionales de letras trabajando en tecnología que consiguen que tu asistente de voz te entienda

Comentarios