Nuance

Loquendo (palabra que significa Locución, y pronunciado [Locuendo]) es una corporación multinacional de tecnología de software, fundada en 2001 por la empresa Telecom Italia,^[1] también tiene oficinas en España, Alemania, Francia, Reino Unido y Estados Unidos.^[2]

Los productos actuales del Loquendo se pueden encontrar en los GPS (ya sean incorporados al vehículo o portátiles), en dispositivos para personas con discapacidad,^[3] teléfonos inteligentes, libros electrónicos, cajeros automáticos con voz, videojuegos de computadora, artefactos domésticos controlados por voz y otros productos.

Sus productos fueron ganadores de varios premios incluyendo “Speech Engine Leader” entregado por “Speech Technologies” en 2007, 2008 y 2009.^[4] También fue considerado por “Speech Technologies” el líder del mercado en 2009 y 2010.^[5] El 30 de septiembre de 2011, Nuance Communications (uno de los principales competidores de Loquendo) anunció que había adquirido Loquendo.

El 12 de abril de 2021, Microsoft anuncia la adquisición de Nuance Communications, formando parte de la divísion Azure, convirtiéndose en el nuevo propietario de la corporación Loquendo.

Loquendo era, originalmente, una comunidad de investigación creada a mediados de los años 1970 y 1972 por los administradores del IRI-STET (predecesora de Telecom Italia) en los laboratorios de CSELT (Centro De Estudio y Telecomunicaciones, en Turín) antes de convertirse en una compañía en 2001.

Construido por recomendación de la Universidad de Padua, aplicando la técnica de los llamados difonos (la unión de una consonante y una vocal, 150 en el idioma italiano) el grupo creó el primer sintetizador de voz con gran inteligibilidad en 1975^[6] era llamado MUSA (por sus siglas en inglés, Multichannel Speaking Automaton), que demostró lo que era posible con la tecnología de ese tiempo. Los resultados logrados en esos años fueron condensados en un disco de audio de 45 rpm, con miles de copias producidas y distribuidas por los medios de comunicación masivos. Fue principalmente distribuida la versión italiana de la canción Frère Jacques con mejor calidad de sonido (MUSA manejaba hasta 8 canales de síntesis en paralelo).

La evolución de este prototipo, con el incremento de número de los difonos (alrededor de 1000), el refinamiento de las herramientas de los análisis lingüísticos y el mejor manejo de la forma de onda llevó a una marcada mejora de la voz sintética. Esto llevó a la creación del «sintetizador de voz» en un circuito integrado desarrollado internamente en CSELT.

En los años noventa nació «ELOQUENS», un sintetizador de voz multi-plataforma para varios sistemas operativos incluyendo DOS, Windows, System 7 y [Unix] y también para tarjetas telefónicas con muchos canales, como las usadas por las operadoras de teléfono italianas para obtener la dirección y la identidad del suscripto de un número de teléfono.^[7]

A finales de los noventa la sintetización de voz tomó un nuevo camino, en vez de usar difonos se empezó a usar la selección y la concatenación de unidades acústicas de longitud variable. Esto provocó en “ACTOR” – “La voz que parece humana” que empezó a adquirir una gran audiencia dado al gran número de servicios telefónicos y aplicaciones creadas por empresas relacionadas con Loquendo. En los años 2000 el sintetizador fue puesto a la venta como un producto comercial, incluyendo un número de herramientas para editar la voz sintética con distintas emociones. También se lanzó una biblioteca SW para que se pueda usar en varios productos pequeños, como celulares, navegadores, computadoras PDA hasta más grandes como servidores telefónicos.

Poco después de las investigaciones en síntesis de voz, comenzaron a investigar el reconocimiento de voz y al principio de los ochentas produjeron un primer prototipo capaz de reconocer diez dígitos y unos comandos simples.

Aplicando el modelo oculto de Márkov, en 1984, se llevó a cabo el desarrollo de un decodificador de voz que podía reconocer palabras conectadas y oraciones. Esto se llevó a cabo con la colaboración de ELSAG, otra compañía del grupo.

La necesidad de producir reconocimientos de voz independiente para aplicaciones telefónicas llevó a la creación de bases de datos con grabaciones de cientos de personas distintas y, en 1987, la primera gran base de datos, obtenida grabando a más de mil personas llamando por toda Italia.

Este material permitió el uso de los modelos de Márkov y usando un sofisticado algoritmo llevó al desarrollo de “AURIS”, el primer reconocedor de voz que podía “dar vuelta” en una variedad de dispositivos con procesadores de señales digitales (DSP).

En los noventa una colaboración europea comenzó y, junto a otras compañías y universidades de toda Europa, se adquirió una base de datos de voz muy grande, con voces de más de 65000 personas.^[8]

Este material, combinado con un nuevo acercamiento al modelo oculto de Márkov y a la red neuronal artificial, produjo “FLEXUS” el primer reconocedor de voz flexible, que permitía a varios servicios telefónicos usar reconocimientos de voz en sus interfaces humanas. Combinando “FLEXUS” y “ACTOR” en un mismo sistema surgió “Diálogos”, permitiendo la creación de servicios telefónicos de vanguardia.

El nacimiento de Loquendo como una compañía llevó al desarrollo de muchos lenguajes y al estreno de reconocedor en la forma de un software de biblioteca, para la creación de varias aplicaciones telefónicas.

Las campañas de grabaciones de voz se expandieron y no sólo fueron en Europa, sino que se movieron hasta los países mediterráneos luego a América del Sur, Centro y del Norte y finalmente países en el Este. Se recolectaron incontables horas de voz de cientos de miles de personas en las regiones. Las grabaciones fueron recolectadas para las conexiones telefónicas, entre otros usos.

Las actividades de investigación de codificación de voz empezaron aún antes que las de reconocimiento y síntesis, el objetivo era armar un equipo como un CODEC para incrementar lo más posible el número de conversaciones telefónicas que podían fluir por un mismo cable (o conexión satelital), sin perder claridad de voz.

A finales de los setentas, estudios y experimentos llevaron a la creación de algoritmos para codificar la señal de voz telefónica y armar la CCITT, normativa europea conocida como codificación A-law. Este estándar se utilizó a continuación, en el CODEC para 64 líneas telefónicas kbit / s RDSI.

En los años siguientes se construyeron codecs más fuertes (usado en intercambios telefónicos) y, con el PAN-Europa en un consorcio GSM, el codec a utilizar en teléfonos móviles de segunda generación. Al mismo tiempo se construyó un CODEC para transmitir señales de alta calidad a pesar del límite de banda de 8 kHz de los cables de teléfono, que era útil para aplicaciones de conferencias de audio y vídeo.

A finales de los años noventa el desarrollo de Internet en la forma que hoy conocemos (hipertexto residente en servidores diferentes que abarcan todo el planeta en una gran red) llevó a la necesidad de hacer que estos textos disponibles en la voz a través del teléfono. Al mismo tiempo los sistemas IVR se vuelven cada vez más y más extensos y se convirtió en una esencial herramienta HW y SW para el desarrollo rápido de nuevas aplicaciones y servicios telefónicos.

Al mismo tiempo, el IVR – (por sus siglas en inglés, Interactive Voice Response), se hizo más popular y utiliza herramientas de hardware y software para desarrollar rápidamente nuevas aplicaciones de telefonía. Es evidente para todos que eso trajo el logro de sistemas complejos como la automatización de la “Guía telefónica” o “el Servicio de Información de tren” que son demasiado rígidas y no permiten el fácil desarrollo de nuevas aplicaciones.

Por lo tanto, se consideró que era necesario crear plataformas para los sistemas telefónicos automáticos de voz que sean escalables y fáciles de programar. Con este fin se creó un grupo de trabajo especial para desarrollar un prototipo de navegador mediante la voz, para ser mostrado al público en SMAU 2000,^[9] con el nombre de "VoxNauta". El éxito fue tal que Telecom Italia decidió cerrar sus laboratorios de investigación originales y crear Loquendo el 1 de febrero de 2001.

A través de los años "VoxNauta" se desarrolló en diversas formas: desde pequeños servidores a sistemas de grandes empresas con miles de líneas y se ha instalado en cientos de empresas de todo el mundo.

La aparición de normas en la redacción de los servicios telefónicos (VoiceXML) y protocolos (CPRM) para la conexión de servidores que alojan las tecnologías del habla a los servidores que alojan las tarjetas telefónicas llevó a la creación de software Speech Server, anfitrión de texto-a-voz y el habla-reconocedor motores de Loquendo.

Esta investigación continúa y el desarrollo ha dado lugar a que Loquendo sea una de las marcas más conocidas en el campo de la síntesis y reconocimiento de voz.

No hay una explicación definitiva del origen del nombre de Loquendo, mientras que el logo fue creado por el departamento gráfico de Telecom Italia. Cuando se visualiza como un gif animado las tres ondas por encima de la "O" se encienden en secuencia, dando la sensación de la emisión del sonido.^{[cita requerida]}

La marca no ha sido protegida por la sociedad, hay otras empresas italianas, cuyo nombre se deriva directamente de Loquendo, y esto ha contribuido a su uso generalizado, incluso a expensas de las marcas competidoras.^{[cita requerida]}

A través de los años, hubo rumores de la venta de Loquendo a otras empresas.^[10] Los más recientes fueron en el verano de 2011, cuando se anunció, que dos empresas multinacionales con sede en Estados Unidos, Nuance y Avaya, estaban estudiando la posibilidad de una toma de posesión.

Como Nuance era un competidor directo de la empresa italiana, había cierta preocupación por los trabajadores de Loquendo, de un posible desmembramiento de la investigación y el desarrollo y, la desaparición de una excelente marca italiana de cuarenta años de experiencia.^[11] La compra por parte de Avaya, parecía entonces más conveniente, ya que sus actividades son complementarias a la actividad llevada a cabo por Loquendo, Avaya, de hecho, no tenía ninguna tecnología de voz, por lo que podría haber estado muy interesada en la posibilidad de un desarrollo.^[12]

Estos informes fueron seguidos con gran interés por los trabajadores, las autoridades locales en Turín y el Piamonte y toda la comunidad científica internacional.^[13]^[14]^[15]

El 13 de agosto de 2011, Telecom Italia anunció públicamente la venta a Nuance de la totalidad de su participación en Loquendo por un valor de 53 millones de euros.^[16]^[17]^[18]

Loquendo tiene varias versiones. La más usada es la TextAloud para hacer vídeos de todo tipo y luego subirlos a la plataforma de vídeos YouTube. Estos vídeos —llamados popularmente "Vídeos Loquenderos"— se volvieron famosos durante mucho tiempo hasta hoy en día. Los youtubers que suben videos con Loquendo se les apoda "Loquenderos". El uso más corriente y más popular de Loquendo ha sido para videos o parodias de Grand Theft Auto: San Andreas. El primer vídeo usando ese programa se subió el 22 de mayo del 2006 por el usuario fingazzz. El título del vídeo es Still Dorito,^[19] el cual es una parodia de la canción de rap Still Dre.

Escribe un comentario o lo que quieras sobre Nuance (directo, no tienes que registrarte)

Comentarios
(de más nuevos a más antiguos)

Aún no hay comentarios, ¡deja el primero!