Home MundoTec Software Código fuente Tutorial / pdf Minijuegos

2020

Producto informático ofrecido por ReadSspeaker para sitetizadores de voz en la nube, por consultas e implementación visite : www.readspeaker.com

Producto informático ofrecido por NCH para el desarrollo de sintetizadores de voz, por consultas e implementación visite : www.nch.com.au

Producto informático ofrecido por KVR Audio para el desarrollo de sintetizadores de voz, por consultas e implementación visite : www.kvraudio.com

Los sintetizadores de voz son programas que dotan de voz, hablada en distintos idiomas humanos, a la máquina informática. El sistema computarizado que es utilizado con este propósito es llamado computadora de habla y puede ser implementado en productos software o hardware. Un sistema text-to-speech (TTS) convierte el lenguaje de texto normal en habla; otros sistemas recrean la representación simbólica lingüística como transcripciones fonéticas en habla. En esta presentación se ofrecen 3 alternativas de sintetizadores de voz, dos software instalables y uno en la nube, todos código privativo, y la mayoría pagos, pero si buscas en Internet encontrarás muchos, algunos gratis y "amateur".

Haciendo un poco de historia, antes de que el procesamiento de señal electrónico fuera inventado, hubo quienes intentaron construir máquinas para imitar el habla humana. Algunas de las primeras leyendas de la existencia de los "Brazen Heads" involucraron a Silvestre II (d. 1003 AD), Alberto Magno (1198–1280) y Roger Bacon (1214–1294). En 1779 el científico Christian Kratzenstein, construyó modelos del tracto vocal humano que podían reproducir los sonidos de las cinco vocales. En la década de los treinta, los laboratorios Bell desarrollaron el vocoder, el cual automáticamente analizaba el habla a través de su nota fundamental y resonancias. De su trabajo con el vocoder, Homer Dudley desarrolló un sintetizador operado por un teclado llamado The Voder, el cual fue exhibido en la New York World's Fair de 1939. Los primeros sintetizadores de habla tenían un sonido robótico y poseían poca inteligibilidad. La calidad del habla sintetizada ha sido mejorada, pero el audio de salida de la síntesis de habla contemporánea aún es distinguible del habla humana. Debido a la proporción de costo-rendimiento, los sintetizadores de habla se han convertido cada vez más baratos y accesibles para las personas, siendo más gente beneficiada por el uso de programas texto-habla.
Los primeros dispositivos electrónicos o sistemas de computadora basados en la síntesis de voz fueron creados en la decada del cincuenta del siglo XX. El primer sistema general de inglés de texto-habla fue desarrollado por Noriko Umeda et al. en 1968 en Laboratorio Electrotecnico en Japón.
En 1961, el físico John Larry Kelly, Jr y su colega Louis Gerstman usaron una computadora IBM 704 para sintetizar la voz, un evento importante en la historia de los laboratorios Bell. El sintetizador de voz de Kelly (vocoder) reprodujo la canción "Daisy Bell" con el acompañamiento musical de Max Mathews. Los dispositivos móviles electrónicos incluyeron síntesis de voz desde la decada del 70 del siglo XX. Unos de los primeros fue la calculadora para ciegos Speech+ de Telesensory Systems Inc. (TSI) en 1976. El primer juego electrónico multijugador en usar la síntesis de voz fue "Milton" de Milton Bradley Company.
Aunque la mayoría de ellos tienen una voz muy robótica, sin entonación ni sentimientos, son muy entendibles y mejoran día a día.

Ahora Haremos un poco de teoria para ver como se imita la voz humana en un ordenador y porqué es tan difícil conseguir una voz idéntica a la nuestra. En primer lugar tenemos que aprender como funciona el sistema que queremos imitar, es decir, nuestra voz. El sonido son ondas de presión que se propagan por el aire, gracias a que las moléculas que lo forman chocan unas con otras. Para producir sonido cuando hablamos, los pulmones expulsan el aire que tienen dentro, éste pasa por la tráquea hacia la laringe, donde se encuentran las cuerdas vocales. En realidad estos nombres sólo sirven para confundirnos, la tráquea es un "tubo", la laringe es el trozo final donde se ensancha ese "tubo" y se une con el "tubo" que viene del estómago, y las cuerdas vocales son dos pliegues musculosos de la laringe. A continuación viene la Glotis, una hendidura que hace vibrar el "tubo" a diferentes frecuencias e intensidades según varíe la masa, longitud y tensión de las cuerdas vocales en ese instante. Seguidamente, el sonido rebota por las cavidades de nuestro tracto vocal, haciendo que la forma del interior de nuestra boca, la laringe, la forma de la lengua, los dientes, los labios, la nariz, etc., produzcan un sonido distinto en cada uno. Es fácil comprobar que si nos tapamos la nariz nuestra voz suena distinta. Las vocales se obtienen mediante la combinación de los movimientos de la boca y de la lengua con cada tipo diferente de vibración de las cuerdas vocales, y cuando movemos la boca y la lengua y expulsamos el aire sin producir ningún tipo de vibración en las cuerdas vocales, generamos las consonantes. Hasta aquí ya sabemos como funciona la voz, pero... ¿Cómo se imita todo esto en el ordenador?. En un ordenador el sonido lo generan los altavoces haciendo vibrar una membrana que es movida por un imán. La intensidad y la velocidad con la que tiene que moverse el imán viene dada por la señal eléctrica que le llega al altavoz, así que lo que hay que hacer es enviar a los altavoces la señal adecuada. Para eso, primero debemos saber que sonido tenemos que producir, convirtiendo un texto en fonemas. Después, para cada fonema, generamos una señal periódica si queremos generar una vocal. Si lo que queremos generar es una consonante, tendremos que generar una señal de ruido. A continuación, se pasa por un modelo que imite las resonancias del tracto vocal y, por último, por otro modelo que imite el efecto que produce el medio en el que se expande la onda sonora. Cuando llegamos al siguiente fonema se intenta que el cambio entre uno y otro sea gradual, para que la voz sea más realista. Después de todo este procesamiento, la señal que hasta ahora sólo era información, se convierte en una señal eléctrica que se envía a los altavoces. Todo este procesamiento es bastante complejo, sobre todo el crear un modelo de la boca que sea realista. Los mejores sintetizadores se han conseguido haciendo escáneres del tracto vocal a humanos. Añadido a esto, está la dificultad de imitar las emociones que transmitimos con la voz y darle la entonación adecuada al leer un texto. Esto último todavía no lo ha conseguido nadie. Hay que investigar más sobre cómo son las entonaciones que damos cuando estamos enfadados, deprimidos o alegres, además de que hay que conseguir que la máquina entienda el significado del texto, para que pueda deducir la entonación que tiene que darle según el contexto en el que se encuentre. Los japoneses han conseguido con sintetizadores muy sofisticados, voces de cantantes bastante realistas usando el truco de hacer que la voz sintetizada siga la música. A las voces de los cantantes que no saben cantar se les hace algo parecido para que sigan la melodía, pasando su voz por un software como Autotune. Los dos sintetizadores de voz japoneses más famosos son Vocaloid, que reproduce la voz de varios cantantes virtuales como Miku Hatsume, y Vocalistener, para el que han creado una robot con apariencia humana, aunque ésta no se hará famosa porque entra dentro del valle inquietante.