Transcriptor: Rubén Aragón Sandoval Revisor: Anna Sobota Hola, me llamo Wendy y he venido aquí a quejarme. A quejarme de que mi móvil no me entienda, pero también a dar gracias. A dar gracias porque mi móvil no me entiende.
Os presento a mi móvil que es este. En esta presentación se va a llamar Harry para evitar despertar a todo el resto de móviles que haya por la sala. ¿A qué me refiero cuando digo que no me entiende?
Porque está claro que si yo le pido a mi móvil que me diga el tiempo, me devuelve algo, ¿no? Me devuelve el tiempo. Me está entendiendo.
Pero en realidad no escucha mi voz, sino que lo que hace es funcionar mediante palabras clave. Y es esa palabra clave lo que está escuchando. ¿Y qué es lo que deja fuera?
Vamos a verlo. Pongamos que yo pregunto a mi móvil si llueve. “Oye Harry, ¿llueve?
” “ - No parece que esté lloviendo ahora. ” Cosa que es mentira porque sí que está lloviendo pero esto está pregrabado. Bueno, pues me responde lo que tiene que responder: el tiempo.
Pero, ¿qué pasa si en vez de preguntárselo informo a Harry de que está lloviendo? “Oye Harry. Llueve”.
“ - No parece que esté lloviendo ahora”. Exactamente lo mismo, obtengo la misma respuesta. Pero, ¿yo he dicho lo mismo?
En realidad, no. Sabéis que si lo escribimos, encontraríamos ahí unos signos de interrogación que estarían diciéndome que yo he pronunciado eso como una pregunta. Pero hay más, porque si yo le vuelvo a decir a Harry que está lloviendo, lo que me contesta es: “Harry que te he dicho mil veces que está lloviendo.
- No parece que esté lloviendo ahora”. Otra vez lo mismo. Si yo estuviera hablando con un humano, Harry no me respondería así, lo mismo.
Me diría: “Que llueve”. Con una entonación que quiere decir: “Pesada, que ya te lo he dicho que está lloviendo”. Sin embargo, Harry no hace esto.
¿Qué es lo que le falta entonces? Lo que le falta es la entonación, porque cuando nosotros hablamos como humanos no usamos sólo las palabras, sino que también usamos nuestra voz. Nuestra voz es un instrumento.
Esto de lo que os estoy hablando es la prosodia. La prosodia incluye cosas como las pausas, la melodía, la calidad de nuestra voz, con qué tono estamos hablando. Es algo que definimos como muy complejo y que siempre se queda fuera de todos los programas de lengua, porque nos parece como que se deshace.
No sabemos bien como explicarlo. Sin embargo es una realidad física, acústica que podemos describir en gráficos como el que tenéis en la pantalla, donde no tenemos ni más ni menos que un tiempo marcado y unas frecuencias. Unas frecuencias en hercios.
Las definimos en hercios, pero que podrían estar en revoluciones por minuto como si fueran la centrifugación de una lavadora. Nos daría lo mismo. Así que, es matemático.
Se puede convertir en números. Entonces, ¿por qué no se lo hemos enseñado a las máquinas? ¿Por qué nadie le ha enseñado a Harry qué es la prosodia y cómo entonar?
Bueno, pues es que en realidad sí que se lo hemos enseñado. Lo que pasa es que no le hemos enseñado cómo los humanos usamos esta prosodia. Harry está usando la prosodia para determinar dónde empieza una palabra y dónde acaba, dónde está la sílaba tónica.
De hecho, si no subiera prosodia, no podría ni siquiera empezar a transcribir lo que decimos. No podría hacer ese reconocimiento del habla. Lo que pasa es que cuando enseñamos prosodia a las máquinas nos seguimos centrando en el qué: en qué decimos y no en el cómo, no en el cómo lo decimos.
Pero es que nosotros cuando hablamos, esta entonación la creamos con las cuerdas vocales. Se crea de manera automática en las cuerdas vocales. Por lo tanto, si no podemos hablar sin cuerdas vocales, tampoco podemos hablar sin entonación.
Es imposible. Así que, de manera automática estamos dando con nuestra voz toda una serie de matices. Estos matices que estamos dándole con nuestra voz a la lengua son parte de la gramática.
Cuando enseñamos gramática a los extranjeros, tenemos que enseñarles también esto. Tenemos que enseñarles cada una de las curvas de entonación y ahí la función, para qué usamos cada una de esas curvas. Vamos a ver unos ejemplos de esta entonación en español.
Imaginaos que alguien me pregunta cómo se llama tu asistente de voz del móvil. Yo diría: “Harry”. Pero si me lo preguntáis vosotros, después de toda la chapa que os estoy dando, ya no os contestaría: “Harry”, y ya está.
Os diría: “Harry. ¿Por qué me lo preguntas? Es obvio”.
Ahora imaginad que suena: “Beep, Beep”. Suena por aquí un mensaje de WhatsApp. Yo pensando que es mi móvil digo: “¿Harry?
” Pregunto si es él. Pero imaginad que me decís que mi móvil os ha llamado sin mi permiso. Que Harry, él mismo, os ha llamado por teléfono.
Entonces yo diría: “¿Harry, mi Harry, mi Harry os he llamado? ” Esa sería una pregunta, pero de incrédula, anti-expectativa. Ahora pongamos que no encuentro mi móvil.
Entonces le llamaría. Le puedo llamar diciendo: “Harry”. O puede decir: “¿Harry?
” Y pongamos por último que me estoy quedando sin batería. Así que, le suplico a Harry que por favor, por favor me deje enviar este último WhatsApp, ¿no? Y diría: “Harry, porfa”.
Algo así. Bueno, una palabra - muchas maneras de pronunciarla diferentes. Aquí las tenéis.
Harry. ¿Harry? ¿Harry?
Harry. ¿Harry? Harry.
Pero está claro que yo normalmente no le hablo así a mi asistente de voz. No tendría mucho sentido que yo le hablara así. Pero hay todavía más.
Porque lo que os he enseñado hasta ahora son entonaciones que son especiales del español. Pero también hay una parte de la entonación de la prosodia que es universal. Seguro que muchos de vosotros o todos vosotros, cuando veis a un conocido, sabéis si está triste o alegre, enfadado o cansado.
Si os está hablando sonriendo o incluso si ha bebido una copita de más por cómo os habla, ¿no? Bueno, pues las máquinas también pueden hacer eso. Las máquinas también pueden saber esas cosas.
Por ejemplo, tenemos aplicaciones que pueden detectar de manera automática episodios de depresión y saber si en ese momento tienes depresión. Pero también es verdad que de todas esas personas que conocéis, si conocéis más a una persona probablemente sabréis mejor si en ese momento está triste o contenta. Estoy pensando en esas madres que cuando coges el teléfono y dices: “Hola, mamá“, te dicen: “Hija, ¿qué ha pasado hoy en el trabajo que suenas tan triste?
” Y tú dices: “Dios mío, solo he dicho hola” y ya sabe cómo estoy y que ha pasado algo. Lo sabe todo de mí solo por cómo suena mi voz, ¿no? Pues está claro que una máquina nunca nos va a conocer como nos conocen las personas.
Incluso aunque lo pudieran llegar hacer, habría muchas veces en el que nosotros tenemos diferentes estrategias para expresar cómo nos sentimos. Por ejemplo, una persona podría expresar que está muy triste y que tiene un episodio de depresión mediante estar especialmente alegre. Eso seguramente su madre lo notaría o quizá su madre lo notaría, pero una máquina, pues, no tanto.
Pero no hay más. Porque la comunicación no es solo conseguir que las máquinas nos entiendan. Es también que las máquinas puedan expresar cosas.
Está claro que si una máquina tiene que expresar que está triste, contenta o cansada, primero tiene que sentirlo. Y claro, en estos momentos no tenemos máquinas sintientes. Hasta que las máquinas no sean entes sintientes, pues no podrán expresar todos esos matices que decimos.
Al fin y al cabo, si lo pensáis bien, no sé vosotros, pero si pensamos en los objetos que tenemos normalmente en casa, no sé si nos haría mucha gracia que una aspiradora nos comunicara que está cansada o que mi Harry me dijera que está harto. Así que al final del día yo me quejo. Me quejo porque las máquinas no me entienden.
Pero también doy gracias porque no me entiendan. Porque al fin y al cabo la que me quiero quejar soy yo, y no Harry. Muchas gracias.