¿Cómo funciona el reconocimiento por voz de nuestros teléfonos?

Software

Los sistemas de reconocimiento y control están de moda últimamente. La mayoría de sistemas operativos lo incluyen. Cortana está presente en Windows 10 Mobile, y Android. Google tiene su propio reconocimiento de voz a través de Google Now, y Apple tiene su famoso Siri, el cuál es de las mejores implementaciones que hay disponibles en el mercado. Pero, ¿cuándo surgieron y cómo funcionan?

Los primeros sistemas de reconocimiento de voz fueron creados en 1952, y funcionaba detectando la potencia que tenía la voz en la palabra que era pronunciada, después de las cuales había que pararse. Por desgracia, este sistema estaba limitado a un solo interlocutor y era capaz de registrar 10 palabras.  Casi 20 años más tarde, Raj Reddy fue el primero en desarrollar el primer sistema de reconocimiento de voz continua a finales de los 60.

us__en_us__ibm100__pioneering_speech__talking_typewriter__620x350

A principios de los 70, la Agencia de Proyectos de Investigación Avanzada del Departamento de Defensa (DARPA), junto con la que participaron empresas como IBM, desarrolló un sistema que permitía reconocer hasta 1.000 palabras distintas. A partir de los años 80, se crearon sistemas que podían reconocer hasta 20.000 palabras. Una cifra nada desdeñable, pero lejos del millón de palabras que tiene el inglés, o las 300.000 del español.

Este software de los ochenta sólo permitía la detección de palabras de manera individual, y no de manera conjunta. Cuando utilizamos Google Now o la búsqueda por voz de Google, podemos ver que conforme vamos hablando, se van corrigiendo las palabras que decimos. Esto es debido a que detecta las palabras de manera conjunta.

En cuanto al procesamiento, a principios de los 90, gracias a la mejora de potencia de los procesadores, se puedo incluir la detección conjunta de palabras y de contexto. Actualmente, toda esta información no se procesa en nuestro teléfono, sino que se hace “en la nube”. Es para este tipo de ordenadores, entre otros, para los que están destinados algunos procesadores de los que hablamos algunas veces en ADSLZone, como los nuevos Intel Xeon y Phi. La nube de Google está constituida de tal manera que se asemeja a una red neuronal como la de los cerebros humanos.

siri-talking-iphone

Además de procesar lo que decimos, los sistemas de inteligencia artificial van aprendiendo con todo lo que escuchan, y mejoran cada más el reconocimiento de lo que les decimos. Estos sistemas en la nube tienen almacenadas millones y millones de frases, con lo que el detector de voz establece probabilidades con respecto a lo que le estás diciendo, y así mostrarte lo que es más probable que hayas dicho.

Estos sistemas generan también polémica, debido a que nuestro teléfono puede estar escuchando lo que decimos, y lanzarnos publicidad referida a conversaciones que hayamos tenido mientras estaba activado. Aunque estos sistemas tengan aplicaciones útiles, como control por voz en los coches, hay que ser precavidos y tener cuidado con nuestra privacidad.

Quizá te interese…

Las cosas más raras que se le pueden pedir a Siri, Cortana y Google Now

Usar Cortana, Siri o Google Now conduciendo es peor que hablar por el móvil

Apple renombra Mac OS X 10.12 y llega macOS Sierra

Escrito por Alberto García

Fuente > ADSLZone

Continúa leyendo
Comentarios
8 comentarios
  1. JB
    Usuario no registrado
    23 Jun, 16 8:03 am

    el artículo está bien, salvo el punto en el que dice que el inglés tiene más de un millón de palabras y el español 300.000, voy a suponer que fue un error tipográfico y faltan ceros o alguna palabreja extra 🙂

    1. Alberto García 23 Jun, 16 9:32 am

      En el diccionario de Oxford hay 700.000 palabras, y en el de la RAE 91.300. Súmale los distintos usos verbales, y dan las cifras del artículo.

    2. Anónimo
      Usuario no registrado
      23 Jun, 16 11:11 am

      Es normal, ten en cuenta que el inglés es un idioma bárbaro y onomatopéyico, por lo tanto tienen palabras para todo, tan sólo tienen que imitar sonidos para generarlas. Sin embargo, el español (y realmente todos los idiomas derivados del latín) es un idioma culto y elaborado en el que es más difícil crear palabras, lo cual no significa que sea menos capaz o “potente” que el inglés.

      Hay que tener en cuenta que mientras Roma se bañaba en aguas calientes con termas, tenía teatros y había legislado sobre la adopción, el alquiler, la propiedad, la herencia, los derechos ciudadanos, etc., los bárbaros del norte, entre los que se encontraban los anglosajones y demás pueblos germánicos, todavía andaban dibujando “palitos” en las cuevas (las famosas Runas).

  2. Anónimo
    Usuario no registrado
    23 Jun, 16 11:04 am

    “A principios de los 70, una empresa de Virginia llamada DARPA”

    ¿Cómo? DARPA es la Agencia de Proyectos de Investigación Avanzados de Defensa del ejército de EEUU, no una empresa.

    1. Alberto García 23 Jun, 16 12:38 pm

      Cierto, gracias por el apunte.

  3. Anónimo
    Usuario no registrado
    23 Jun, 16 1:33 pm

    Había una aplicación para Windows 3.11 que ya te permitía lanzar programas, ejecutar algunos comandos y cerrar y abrir ventanas a través del micrófono.

    1. felipelotero 23 Jun, 16 2:29 pm

      Sí, el IBM VoiceType

  4. Juan Antonio
    Usuario no registrado
    23 Jun, 16 1:39 pm

    Actualmente por lo menos en Android, te puedes descargar un idioma, y así el reconocimiento verbal, lo hace offline.
    Lo que todavía no hace offline, son las órdenes del ok, Google. Pero se está empezando en inglés a permitir procesar algunas ordenes como encender linterna, etc.