Texto a voz con IA: las mejores opciones comerciales y gratuitas

Cada día surgen nuevos modelos y tecnologías que usan la IA generativa para multitud de situaciones. Una de estas, y por las que más me habéis preguntado, es por los sistemas de texto a voz. Ya hemos hablado largo y tendido de una tecnología realmente útil, como es Whisper, que hace justo lo contrario, pasar voz a texto. Pero, ¿se puede hacer lo contrario? Y lo más interesante: ¿se puede hacer gratis?

Pues te doy un spoiler: sí, se puede. He seleccionado seis de las mejores opciones comerciales y gratuitas disponibles a día de hoy, que no serán las mismas probablemente que las que tengamos dentro de un año o una semana, porque la IA avanza a pasos agigantados.

Así que, para no dejar este este artículo obsoleto más pronto que tarde, vamos a aprender a usar algunos modelos de IA gratuitos usando una especie de «gestor de paquetes» que lo instala absolutamente todo por nosotros, sin crear conflictos entre paquetes o con el sistema operativo.

Lo que vamos a hacer en esta prueba es comparar el paso de texto a voz usando el que quizá sea el pangrama más famoso de la historia:

El veloz murciélago hindú comía feliz cardillo y kiwi. La cigüeña tocaba el saxofón detrás del palenque de paja. Benjamín pidió una bebida de kiwi y fresa. Noé, sin vergüenza, la más exquisita champaña del menú.

Y vamos a compararlos en términos de facilidad de uso, velocidad y calidad de la voz, en general.

Vamos primeramente con las opciones de pago.

El rey: ElevenLabs

Ahora mismo si hay una IA para audio que ha despuntado, con el permiso de Suno y Adobe Podcast, es ElevenLabs. Este ofrece un plan gratuito que da hasta 10 minutos de texto a voz mensualmente, con planes de pago que empiezan desde 5 dólares al mes con treinta minutos de texto a voz.

Pues bien, en el caso de ElevenLabs tenemos una interfaz muy intuitiva en la que podemos seleccionar diferentes voces según el idioma. En este caso, disponemos de una voz en acento de español peninsular neutro. Seguro que te has llevado las manos a la cabeza con lo que acabo de decir, así que diré: «español que pronuncia ‘zapato’ con ceceo, no seseo». Seguro que así se me entiende mejor. Además, tenemos algunas opciones extra, como la de balancear la voz entre un tono más creativo o más robusto, más consistente.

La sencilla pero potente interfaz de ElevenLabs

En este caso nos genera dos voces y la velocidad que ha tomado en hacerlo ha sido de 5 segundos. La primera voz generada es bastante buena, con un tono natural que flexiona con esas mini exhalaciones que le dan calidez a la voz. Sin embargo, no me gusta que no acaba de respetar los signos de puntuación. En el caso de la segunda voz generada, me gusta menos el tono, lo veo un pelín más artificial. Pero me gusta más cómo respeta los signos. Si pudiera hacer un cruce entre el tono de la primera y las inflexiones de la segunda, sería la voz perfecta.

El clásico: Google

La gran G también ofrece un servicio de texto a voz y clonado. Y, como casi siempre en Google, ofrece varios productos que se pisan entre sí, haciendo su oferta algo confusa. Por un lado tenemos el de Gemini, llamado AI Studio, y que se rige por los precios de la IA de Google, que anda ahora por los 22 euros al mes en su plan más barato.

El proceso de generar la voz aquí es muy sencillo, ya que con AI Studio podemos generar la voz, además con un prompt para afinarla. El repertorio no es muy amplio, y la velocidad a la hora de generar la voz con mi texto ha sido de unos 15 segundos, bastante más lento que el de ElevenLabs.

El resultado en este caso mejorable. Le falta calidez a la voz, y además, me lo ha pasado a español neutro, sin posibilidad, a priori, de darle otro acento..

Luego tenemos el de Google Cloud, que esta vez, usa el ya habitual sistema de créditos. Según el modelo utilizado, los precios van desde los 4 hasta los 60 dólares por millón de caracteres. A mí sinceramente este es el sistema de pago que más me gusta si no vamos a tener consistencia a la hora de realizar esta tarea. Si somos una empresa que tiene que pasar mucho texto a voz, pues quizá nos conviene mejor un plan mensual, pero si es para uso esporádico, esto me gusta más.

En este caso tenemos un montón de idiomas con diferentes acentos, entre los que podemos seleccionar español con ceceo.

En este caso ha generado una voz que da cierto tono de asistente, pero el resultado no está nada mal. No tenemos un «modo estudio» o interfaz que facilite las cosas. Pero, a su vez, la ventaja de esto es que ofrece más flexibilidad para conectarlo a otros sistemas si tenemos la destreza suficiente.

El pionero: OpenAI

Vamos ahora con el modelo de la empresa pionera en el mundo de la IA generativa, OpenAI. En el caso de la empresa de Sam Altman, dispone de un sistema de texto a voz sencillo y que también funciona por pago por uso.

Aquí podemos usar la interfaz de OpenAI llamada Platform, así que punto a su favor. En cuanto a modelos, disponemos del más reciente, llamado GPT-4o y otro llamado TTS1.

En cuanto al modelo 4o, la velocidad es bastante rápida, tomando solo un par de segundos. El resultado es un pelín histriónico, con una voz de señora que me imagino gesticulando de forma vehemente para subrayar lo que dice.

Como curiosidad, generar el texto con el modelo de 4o mini tomó 0.003 dólares. En el caso de TTS1-HD toma también un par de segundos, aunque la voz queda demasiado acelerada, y no respeta del todo los signos de puntuación.

La verdad es que no entiendo por qué no meten los modelos que están ya en ChatGPT y que tienen una naturalidad hablando absolutamente increíble. Es verdad que es un tono muy conversacional, pero es muy natural en las pausas, las exhalaciones e incluso modulando la voz.

El infalible: Amazon Polly

Amazon Web Services, entre las infinitas herramientas que trae, tiene una llamada Polly, que funciona también con un modelo de pago por uso. Para que te hagas una idea, para un millón de caracteres o 23 horas de audio, con el modelo llamado Generativo (el más potente) cuesta 30 dólares y con el de Long form, para textos largos, 100 dólares. También dispone de una capa gratuita, con 500 000 caracteres por mes para el de texto largo y 100 000 para el modelo Generativo, todo esto durante el primer año.

En cuanto a la interfaz, me gusta mucho, pudiendo elegir entre diferentes voces, idiomas y acentos. En cuanto a la velocidad, tardó menos de 2 segundos y, el resultado con el modelo Generativo fue bastante más natural de lo esperado. Sigue teniendo un saborcillo a asistente, pero respeta bien los signos de puntuación. Además, si queremos algo más de tono narrativo, podemos usar el modelo Long form. En este caso tenemos un tono como más apagado, con cierto dramatismo, pero en ningún momento me sonó artificial.

Los gratuitos: XTTS y OpenAudio

No solo hay modelos comerciales, sino también gratuitos y de código abierto, como el anteriormente conocido, como Fish, de OpenAudio, o XTTS.

¿Y cómo instalar estos modelos? Por lo que yo he probado, lo más sencillo es usar un gestor de paquetes para mantenerlo todo bien ordenadito y sin crear conflictos con las librerías del sistema. Este gestor se llama Pinokio, y además de los modelos mencionados, es capaz de instalar otros muchos para tener toda la potencia de la IA generativa de código abierto en nuestros equipos en local. Suena bien, ¿verdad?

Para instalar los modelos, primero descargamos Pinokio para nuestra plataforma. Luego, buscamos en su explorador, llamado Discover, el modelo que queramos. Al principio instalará un montón de dependencias tanto de Pinokio en sí como del modelo que elijamos, que en el primer caso será el de OpenAudio, así que dale tiempo, que lo va a necesitar. Lo bueno es que está todo completamente automatizado y es algo que solo hay que hacer una vez.

Aunque el principal inconveniente es que, al tratarse de procesos que se ejecutan en local, si tienes un equipo de prestaciones modestas puede resultar desesperante el tiempo que puede tomar hasta dar el resultado. Así que, si quieres alta velocidad, lo ideal es un equipo con una CPU reciente y, si estás en PC, una GPU NVIDIA RTX. Esto, claro, no es barato. Como referencia, para velocidad, lo he corrido todo en un portátil Intel i7 de 9ª generación, 24 GB de RAM y una gráfica GTX 1660 de 6 GB. Como ves, no es el último grito, así que puede darte una idea de la velocidad media que puede dar.

Algo que me encanta de Pinokio es que instala automáticamente la interfaz para usar los modelos, así que dile adiós a esos espartanos comandos en la consola. En el caso del modelo de OpenAudio tenemos algunas opciones, un tanto esotéricas, aunque no permite seleccionar el idioma. Yo no voy a cambiar nada, para ver lo que es capaz de hacer recién salido de fábrica. Al pegar el texto y darle a generar la voz tardó nada menos que 84 segundos.

Y en cuanto a la calidad, es bastante mejorable. Me recuerda mucho a la voz de Apu de Los Simpson, con un ritmo atropellado e inflexiones poco naturales.

Vamos a probar con otro modelo open source que está dando que hablar, que es XTTS. Instalamos el modelo desde el explorador de Pinokio, y en este caso sí podemos seleccionar el idioma. Por cierto, hay que destacar que en ambos modelos podemos también clonar nuestra voz.

En el caso de XTTS tomó solo 27 segundos en pasar a voz el pangrama, mucho menos que OpenAudio, y el resultad no está pero que nada mal. Sigue haciendo inflexiones raras, pero la veo más natural que el modelo de OpenAudio. Esas caídas, cuando dice «paja» por ejemplo, las veo más orgánicas.

Conclusión

El mejor resumen que podríamos hacer es que, si quieres calidad y rapidez, paga y todo irá sobre ruedas. De las alternativas mencionadas me quedo quizá con la de ElevenLabs si quiero hacerlo por suscripción, por el equilibrio que ofrece entre potencia y facilidad de uso.

Si quisiera pago por uso, sin duda, me quedo con Polly. Al igual que el de Google, podemos usar la potente API de AWS para insertar el modelo donde queramos. Creo que es el que mejor equilibrio ofrece entre precio, facilidad de uso, velocidad y resultados.

Si no quieres gastarte dinero y prefieres usar alternativas de código abierto, privadas y locales, como ya hemos dicho más vale que tengas un PC o Mac muy potente, o si no los tiempos de espera se harán eternos. De entre las que he probado, en cuanto a equilibrio de calidad y facilidad de uso yo me quedaría con XTTS.

Es posible que digas ahora «si integras la API de este modelo o ajustas tal parámetro de aquel modelo obtendrás un mejor resultado». Es posible, pero he querido aquí mostrar lo que funciona mejor en su estado inicial, o lo menos alterado posible.

O también puede que digas «pero ¿cómo has podido olvidarte del modelo «inserte aquí su modelo», que es mejor que todos los demás juntos?». Pues en ese caso déjalo aquí en los comentarios, que así nos ayudaremos entre todos a encontrar la mejor opción para pasar texto a voz con la IA.

Adquiere las herramientas de trabajo de Creatubers

Equípate para tu proyecto creativo y me ayudarás con una pequeña comisión de afiliado. No pagarás de más, sino que los proveedores dejarán de recibir una pequeña parte para dársela a Creatubers.

🛒 Entrar 🛒