¿Cómo funciona el reconocimiento por voz de nuestros teléfonos?

Alberto García Publicado el 22 de junio, 2016 • 20:30

Los sistemas de reconocimiento y control están de moda últimamente. La mayoría de sistemas operativos lo incluyen. Cortana está presente en Windows 10 Mobile, y Android. Google tiene su propio reconocimiento de voz a través de Google Now, y Apple tiene su famoso Siri, el cuál es de las mejores implementaciones que hay disponibles en el mercado. Pero, ¿cuándo surgieron y cómo funcionan?

Los primeros sistemas de reconocimiento de voz fueron creados en 1952, y funcionaba detectando la potencia que tenía la voz en la palabra que era pronunciada, después de las cuales había que pararse. Por desgracia, este sistema estaba limitado a un solo interlocutor y era capaz de registrar 10 palabras. Casi 20 años más tarde, Raj Reddy fue el primero en desarrollar el primer sistema de reconocimiento de voz continua a finales de los 60.

us__en_us__ibm100__pioneering_speech__talking_typewriter__620x350

A principios de los 70, la Agencia de Proyectos de Investigación Avanzada del Departamento de Defensa (DARPA), junto con la que participaron empresas como IBM, desarrolló un sistema que permitía reconocer hasta 1.000 palabras distintas. A partir de los años 80, se crearon sistemas que podían reconocer hasta 20.000 palabras. Una cifra nada desdeñable, pero lejos del millón de palabras que tiene el inglés, o las 300.000 del español.

Este software de los ochenta sólo permitía la detección de palabras de manera individual, y no de manera conjunta. Cuando utilizamos Google Now o la búsqueda por voz de Google, podemos ver que conforme vamos hablando, se van corrigiendo las palabras que decimos. Esto es debido a que detecta las palabras de manera conjunta.

En cuanto al procesamiento, a principios de los 90, gracias a la mejora de potencia de los procesadores, se puedo incluir la detección conjunta de palabras y de contexto. Actualmente, toda esta información no se procesa en nuestro teléfono, sino que se hace “en la nube”. Es para este tipo de ordenadores, entre otros, para los que están destinados algunos procesadores de los que hablamos algunas veces en ADSLZone, como los nuevos Intel Xeon y Phi. La nube de Google está constituida de tal manera que se asemeja a una red neuronal como la de los cerebros humanos.

siri-talking-iphone

Además de procesar lo que decimos, los sistemas de inteligencia artificial van aprendiendo con todo lo que escuchan, y mejoran cada más el reconocimiento de lo que les decimos. Estos sistemas en la nube tienen almacenadas millones y millones de frases, con lo que el detector de voz establece probabilidades con respecto a lo que le estás diciendo, y así mostrarte lo que es más probable que hayas dicho.

Estos sistemas generan también polémica, debido a que nuestro teléfono puede estar escuchando lo que decimos, y lanzarnos publicidad referida a conversaciones que hayamos tenido mientras estaba activado. Aunque estos sistemas tengan aplicaciones útiles, como control por voz en los coches, hay que ser precavidos y tener cuidado con nuestra privacidad.