Últimamente el tema del reconocimiento de voz está muy de moda: el lanzamiento del iPhone 4S y de iOS 5 ha destacado por la inclusión de Siri, el asistente disponible en inglés que permite dar órdenes de voz y tener casi casi una «conversación inteligente» con estos smartphones.
Lo cierto es que las tecnologías de reconocimiento de voz llevan ya mucho tiempo con nosotros, pero su uso ha estado limitado por la precisión de dichos desarrollos software, que a menudo no era la deseada. La cosa ha mejorado en los últimos tiempos, pero parecía que los programas de reconocimiento de voz solo servían para dictar largos textos de cuando en cuando.
Siri ha demostrado que la aplicación de dichos sistemas puede ser muy útil, y como ya sabéis Google había hecho ya algo muy similar con las Búsquedas por voz y las Acciones de Voz de Android que también permiten ofrecer funciones similares, pero… ¿qué pasa con Linux?
Pues en nuestro sistema operativo preferido tenemos al menos dos alternativas destacadas, que pasamos a describir.
Es un sistema de reconocimiento de voz que puede utilizarse para controlar la interfaz de usuario y que funciona especialmente bien con KDE, ya que ha sido escrito en C++ usando Qt y KDE para la interfaz de usuario, lo que garantiza su integración con KDE 4. No obstante, es posible usar Simon con otros entornos de escritorio y gestores de ventanas.
[youtube:http://www.youtube.com/watch?v=x_9ImaiOISs 550 330]
El programa está desarrollado originalmente en Alemania, y de hecho en su página oficial la página de inicio se muestra en alemán, y hay traducciones al inglés e incluso al español, aunque esta última es bastante mala.
Por el momento los idiomas soportados son el alemán y el inglés, así que aunque el español podría estar soportado en el motor de reconocimiento que usa Simon, y que se llama Julius, pero parece que se necesita un diccionario que por lo visto también tiene que tener transcripciones fonéticas para que trabaje con Simon.
VoxForge es precisamente el principal recurso de transcripciones de voz que se pueden usar en motores de reconocimiento de voz, pero por el momento no existe un modelo acústico completo, que de hecho podéis ayudar a construir con vuestras propias voces en la página oficial de VoxForge, como explican aquí. Atención no obstante a esta descarga que hemos visto a través del motor Sphinx, que parece ser un paquete con el modelo acústico en español, que puede serviros de ayuda.
Por cierto, tenéis un interesante blog actualizado de cuando en cuando con las novedades de Simon en Google Blogspot, aquí.
Este desarrollo (también conocido como CMUSphinx) está realizado por la prestigiosa universidad Carnegie Mellon, y en el sitio web oficial disponen de un montón de información, noticias y documentación sobre este motor de reconocimiento de voz que podéis instalar en vuestros sistemas a través de diversos componentes, que encontraréis aquí.
Habría que comprobar el rendimiento de esta solución, que podéis entrenar convenientemente usando el componente llamado SphinxTrain, pero lo cierto es que su reputación es notable, aunque en el sitio web oficial el tono es demasiado técnico y poner en marcha la aplicación puede asustar a los usuarios noveles.
[youtube:http://www.youtube.com/watch?v=fQ59dXOo63o 550 330]
Hay no obstante posibilidades reales de controlar un entorno de escritorio con Sphinx, como demuestra el uso de GNOME Voice Control, y lo mismo sucede con otras aplicaciones curiosas, como la versión PocketSphinx para dispositivos móviles e incluso consolas portátiles como la PSP. La potencia de este motor está en su versatilidad, ya que es posible combinarlo con otros sistemas (como Kinect, en el vídeo) para ofrecer una experiencia de usuario realmente interesante para el futuro.
Otros proyectos
En la Wikipedia tenéis un buen artículo sobre motores de reconocimiento de voz en Linux, entre los que destaca CMU Sphinx pero que también destaca a Julius (usado en Simon), Platypus (que permite usar Dragon Naturally Speaking bajo Wine en Linux), VedicsCVoiceControl, algo así como GNOME Voice Control pero para KDE.
Lo cierto es que las alternativas están ahí, quizás algo «verdes» para su uso práctico, pero sin duda interesantes para promover en el futuro la puesta en marcha de una interfaz de la que podamos sacar partido con nuestra voz. Quién sabe qué nos deparará el futuro en este interesante campo.