Cómo hacer VOCES REALISTAS con IA (gratis)
526 segments
Google presenta un nuevo Gémini y esta
vez amenaza todas las startups de
generación de voz y te da gratis una de
sus funciones más interesantes y encima
la mejora. El control de la expresividad
ahora es como dirigir un actor y es que
permite hacerlo de un modo que no
imaginas. Escucha esto.
Esta voz no existe. No hay nadie al otro
lado y sin embargo, algo en ti quiere
seguir escuchando.
Ahora escucha esto. Esta voz no existe.
No hay nadie al otro lado
y sin embargo,
algo en ti quiere seguir escuchando.
mismo texto, pero diferente voz,
diferente interpretación y diferente
tono. Y yo tengo control total de cada
uno de estos detalles. Y ojo, que si
quiero puedo traducirlo a otros idiomas
también.
Todo esto lo ha generado el nuevo modelo
de la familia de Gémini que Google sacó
esta semana. Y lo he hecho todo gratis y
es [música] brutal porque lo que acabas
de huir, locuciones con emoción dirigida
en varios idiomas y con control total
sobre la interpretación es lo que
justifica pagar por otras herramientas y
encima este modelo lo hace mejor. Para
que te hagas una idea, en el ranking más
importante de voces sintéticas ya has
superado a Eleven Labs, una herramienta
muy útil tanto para hacer tu contenido
más accesible en tu página web como para
crear nuevo contenido o para traducirlo
a múltiples idiomas, por lo que hoy
vamos a exprimir esta novedad al máximo.
Al terminar el vídeo habrás aprendido
cómo usar este modelo y también podrás
crear paso a paso una aplicación con una
interfaz a medida que genera estas
locuciones en diferentes idiomas de modo
automático. una aplicación muy útil que
crearás de un modo muy muy fácil gracias
a otra novedad de Google, [música]
también gratuita.
Y para que entiendas por qué este nuevo
modelo de Google es distinto, hay un
detalle en la documentación de este
modelo que se le ha prestado poca
atención y que soluciona el principal
problema de las voces sintéticas a las
que puedes acceder de modo gratuito.
Escucha este ejemplo de un modelo
anterior que puedes ejecutar en local
como el Quen TTS. Imagina que pudieras
escuchar la voz de alguien que ya no
está, que pudieras recuperar un mensaje
que nunca se grabó, que la tecnología
pudiera devolverte algo que creías
perdido para siempre.
La generación, como puedes ver, es
correcta. Las pausas caen donde toca. Se
entiende lo que dice. Correcto. Para
poder escuchar un texto escrito en una
web, pero sin control sobre la emoción.
Y es que la mayoría de los modelos de
voz tienen una capacidad muy limitada de
dirigir la emoción si es que la tienen.
Y sí, ya sé que algunos son compatibles
con las etiquetas de emoción como
susurra, enfadado o dubitativo, pero el
nuevo Gemini 3.1 Flyes Tex to Speech
hace que este método se vea muy muy
limitado. Y es que Gémini permite
escribir una instrucción entera para
dirigir la intención con la que se va a
generar la voz. Por ejemplo, con un
prom,
donde puedo explicar la escena, el
contexto e incidir en detalles como el
acento, en este caso andaluz, y añadir
además las etiquetas de emociones. Y si
hago todo esto, consigo un resultado
como este.
Qué arte, mi arma. Estás conectado con
la mejor radio del sur. Tú sigue en el
atasco que yo te pongo el tema. En tres,
dos, vámonos. Y lo interesante, como os
he mostrado en el ejemplo de la
introducción, es que puedo dirigir la
interpretación de un modo preciso una
sola vez y aplicar la locuciones en
tres, cinco o 10 idiomas sin tocar la
interpretación. Ahora vamos a ver cómo
usar este nuevo modelo de Gémini. Con
tantos modelos de inteligencia
artificial apareciendo constantemente,
que si Sehat GPT, que si Cloud, que si
Gémini, que si Deepsic, es difícil saber
cuál usar en cada momento. Y claro, para
probarlos todos necesitas registrarte en
cada servicio por separado, cada uno con
su interfaz y su suscripción. Por eso
quiero hablarte de Mammut. Ai, los
patrocinadores de este vídeo. Mammuth te
da acceso a todos los modelos premium
desde una sola interfaz: Chat GPT,
Clope, Gémini, Yama, Deepsic, Perplexity
y muchos más. Pero lo realmente útil es
poder lanzar el mismo prom a varios
modelos y comparar las respuestas. Así
sabes cuál te da el mejor resultado para
cada tarea, sin tener que ir probando
uno por uno. Y además incluye generación
de imágenes con flux y recraft. Y no
solo esto, puedes animarlas con Beo,
Sora, Grock y Clean. Análisis de
[resoplido] documentos y deep research
con Perplexity. Y algo muy importante,
Mamuth es una empresa europea con sede
en Francia y los datos alojados en
Alemania. Cumple con el reglamento de
protección de datos. Los proveedores no
guardan tus proms y tus conversaciones
no se usan para entrenar modelos. Si
trabajas con información sensible, esto
es indispensable. Todo esto con una sola
suscripción desde solo 10 € al mes sin
permanencia. Te dejo el enlace en la
descripción para que lo pruebes.
Por lo que ahora sí vamos a ver cómo
funciona este modelo, cómo podéis
acceder a él y cómo lo podéis utilizar
gratis. Y lo vamos a hacer a través de
tres ejemplos, tres pruebas que os harán
replantear la necesidad de pagar por
herramientas de este tipo. Para
utilizarlo es muy sencillo, simplemente
tenéis que acceder a Google i Studio en
la sección de Playground y una vez aquí
podéis acceder a todos los modelos que
nos ofrece Google. Podéis ver que hay
diferentes familias. Está la familia de
Gémini, la Live, la de imágenes, la de
vídeo y también está la de audio, por lo
que simplemente seleccionamos la familia
de modelos de audio y aquí seleccionamos
el Gemini 3.1 Flash TTS Preview. Una vez
hecho, simplemente clicamos aquí y ya
podemos empezar a generar nuestras
voces. Para hacerlo tenemos dos modos.
Por un lado, el modo composer, que lo
que nos permitirá es ir añadiendo
diferentes bloques con diferentes voces.
Esto lo veremos en el segundo ejemplo. Y
por otro lado, simplemente introducir
una instrucción de texto, que esto lo
veremos en este primer ejemplo y en el
último, por lo que empezamos por un
primer ejemplo muy sencillo para que
veáis cómo funciona. Le voy a poner aquí
un texto que lo único que incorpora son
algunas de estas etiquetas para dirigir
la emoción, como con confianza, de un
modo cálido o más despacio. La locución
es esta que estáis leyendo. Hoy te voy a
enseñar algo que va a cambiar cómo
trabajas con audio. No necesitas
experiencia previa, no necesitas pagar
nada. y en 15 minutos vas a tener
resultados que hasta hace una semana
costaban dinero. Una vez tenemos el
texto ya preparado, aquí podemos
configurar algunos elementos más, como
por ejemplo las diferentes voces
disponibles, que podéis ver que hay un
montón. En este caso voy a dejar la que
viene por defecto. Y aquí arriba tenemos
las notas del director donde podemos
seleccionar entre diferentes estilos,
diferentes ritmos y también entre
diferentes acentos, aunque los acentos
están un poco limitados a cuando estamos
generando textos en inglés. Si bien es
cierto que si los ponemos en la
instrucción también funcionan para otros
idiomas como el español. Y dicho esto,
también podemos condicionar la
temperatura del modelo. Y esto es
especialmente interesante cuando le
damos instrucciones más extensas, por lo
que lo veremos en el tercer ejemplo. Una
vez está todo configurado, simplemente
le tenemos que dar a run y este sería el
resultado.
Hoy te voy a enseñar algo que va a
cambiar cómo trabajas con audio. No
necesitas experiencia previa, no
necesitas pagar nada y en 15 minutos vas
a tener resultados que hasta hace una
semana costaban dinero y lo mejor es que
solo necesitas un navegador.
Como podéis ver, el resultado es
correcto, pero aún no es muy
espectacular. La idea es que esta
instrucción sea mucho más compleja. Pero
antes de ver un ejemplo de cómo creamos
esta instrucción, lo que vamos a ver es
cómo funciona la herramienta de
Composer, que es la que nos permite
crear de un modo sencillo locuciones con
varias personas o varias voces hablando
en ella. De este modo, para
configurarlos, simplemente tenemos que
darle añadir otro bloque de locución. Y
una vez aquí, pues podemos seleccionar
pues las diferentes voces que queremos
que hablen. Por ejemplo, podemos dejar
la voz que hemos visto anteriormente, la
cefir, y para la segunda voz nos
quedaremos con Pu, que es una voz
masculina. Y una vez hecho esto,
simplemente añadiríamos las
instrucciones del mismo modo que hemos
hecho antes, una para Céfir y otra para
PUC. Una vez hecho, simplemente le damos
a Ran y ya habríamos generado una
locución con dos voces distintas. Este
es el resultado.
A ver, yo lo digo claro. En 2 años nadie
va a pagar por una herramienta de voz.
Nadie. Los modelos gratuitos se las van
a comer.
Eso dijiste de las herramientas de
diseño hace un año y Figma sigue
facturando.
Como podéis ver, también una generación
muy correcta, pero hasta ahora solo
hemos visto dos ejemplos básicos con
algo que podían hacer la mayoría de
herramientas. Ahora es cuando la cosa se
pone interesante y cuando este modelo de
Google destaca respecto a la
competencia, lo que realmente te hace
plantearte si merece la pena pagar por
otras herramientas. Y es que no solo le
podemos dar estos textos con algunas
anotaciones en forma de etiquetas, sino
que le podemos proporcionar una
instrucción muy extensa con lo que
queremos que diga el personaje. Una
instrucción, por ejemplo, como esta. una
instrucción donde definimos el tipo de
escena dónde irá este audio, donde le
damos las notas del director con el
estilo y también con el ritmo y la
emoción, además de la proyección de la
voz. También un poco un ejemplo de
contexto y finalmente la transcripción
que también incluye estas etiquetas. De
este modo, si hacemos todo esto, es
cuando realmente sacamos partido al
modelo, por lo que vamos a generar esta
locución para que veáis la diferencia
respecto a las anteriores. Simplemente
le damos a ran, manteniendo la misma voz
que antes y este es el resultado.
Hay cosas que solo entiendes cuando ya
han pasado,
cuando miras atrás y ves el momento
exacto en que todo cambió. No fue un día
grande.
No hubo aplausos ni titulares.
Fue
un martes cualquiera,
una decisión pequeña que no parecía
importante,
pero lo era y ahora lo sabes porque
estás aquí. Y aquí
es exactamente
donde tenías que llegar.
Esto ya es otra cosa, ¿verdad? La
calidad es claramente superior a lo que
habíamos visto en los dos primeros
ejemplos. No os preocupéis por cómo
escribir estos proms, porque ahora a
continuación os voy a explicar cómo
acceder a un asistente que los escribe
automáticamente. Pero antes de ver este
asistente quiero que escuchéis esta
misma locución en dos idiomas más. Uno
en inglés, donde la calidad sube
enormemente y es que el modelo funciona
mucho mejor en inglés. Y luego en
catalán un idioma no tan popular como el
español o el inglés, donde este modelo
también funciona muy bien.
It wasn't
there was applause, no headlines.
was ordinary Tuesday
a small decision that didn't seem to
matter.
Y ahora el ejemplo en catalán. Ha, coses
que només entens quan han passat. Quan
mires enrere y veus el moment exacte en
que to va canviar. No va ser un gran
dia. [resoplido] No va ha aplaudiments
ni titulars.
Va ser un dimarsal,
una decisi petita que no sbla important
per y
ho saps et aquí y aquí.
Es exactamente una vía hasta arriba.
Y una vez visto lo bien que puede llegar
a funcionar esta herramienta, toca ver
cómo podemos escribir estos proms de un
modo mucho más sencillo. Yo lo que he
hecho a partir de toda la documentación
y buenas prácticas que ha compartido
Google sobre este modelo es crear este
asistente de aquí, Proms para Gémini 3.1
texto speech, que lo que hace es
guiarnos con varias preguntas para crear
promps que realmente funcionen según la
locución que nosotros queremos crear.
Por ejemplo, ahora le voy a pedir que me
cree una locución que sea adecuada para
un personaje tipo vampiro. Le voy a
decir esto. Quiero crear una locución
para un vampiro con este texto. Llevo
siglos esperando. ¿Sabes lo que es ver
pasar el mundo entero desde la sombra?
Sin envejecer, sin olvidar. La gente
cree que es lo peor, es la sed, ¿no? Lo
peor es la paciencia y la mía acaba de
terminarse. Pues si le enviamos esto,
fijaros qué sucede. Analiza el contexto
y me hace un par de preguntas además de
darme una primera versión del prom. Por
ejemplo, si nos fijamos en las dos
preguntas, vemos que nos pregunta para
qué finalidad es esta locución y, por
ejemplo, un detalle que le han quedado
dudas de cómo quiere que lo resolvamos.
Por ejemplo, le voy a decir que quiero
que termine con este susurro gélido. Le
digo, "Es para un corto. Quiero terminar
con un susurro gélido." Y cuando se lo
envío, automáticamente me va a devolver
ya el promptimizado.
Aquí lo podéis ver. Por lo que si yo
copio desde Gémini este prom y vuelvo a
Google I Studio, obtengo algo como esto.
Levo siglos esperando.
¿Sabes lo que es ver pasar el mundo
entero desde las sombras?
Sin envejecer,
sin olvidar.
La gente cree que lo peor es la sed,
¿no? Lo peor es la paciencia
y la mía
acaba de terminarse. Y este ejemplo
vuelve a demostrar que este es un modelo
de generación de voz diferente porque es
el primer modelo que admite este nivel
de detalle y control a la hora de darle
una instrucción para que nos genere la
locución tal y como nosotros queremos.
Pero para ello debemos poder escribir
estos proms tan extensos, por lo que lo
que voy a hacer es daros este asistente.
Podéis acceder a él a través del enlace
que encontraréis en la descripción. Pero
llegados a este punto, de lo que os he
hablado hasta ahora es de un modelo, no
de una herramienta. Y aquí es donde la
cosa se pone aún más interesante, porque
podemos crear nuestras propias
herramientas encima de este modelo de un
modo gratuito también en Google Studio y
de paso aprovechar otra novedad de
Google, por lo que ahora vamos a crear
nuestra propia aplicación tipo Eleven
Labs de un modo completamente gratuito.
Y es que gracias a la última
actualización que han hecho en Google y
Studio, ahora crear aplicaciones es más
fácil que nunca, ya que al darle una
instrucción para que genere tu
aplicación, en vez de generarte un único
diseño, ahora te propone cinco diseños
alternativos de interfaz. Tú puedes
escoger el que más te gusta y luego
desarrolla tu aplicación, por lo que
vamos a ver cómo funciona con este
ejemplo de la aplicación para generar
lociones, por lo que crear nuestra
aplicación es tremendamente sencillo.
Simplemente volvemos a Google y Studio y
pasamos de la sección Playground a la
sección build. Y una vez en la sección
build, simplemente pegamos el prom que
nos permitirá construir nuestra
aplicación, que esencialmente lo que le
pido es crear una aplicación que utilice
el último modelo de texto speech y que
permita hacer todo esto. Introducir
texto, mejorarlo automáticamente con
etiquetas de expresividad usando
inteligencia artificial, seleccionar voz
de idioma y que me genere los archivos
en W y algunas restricciones para
asegurarme que cree la aplicación
correctamente. Y una vez le he cargado
el Chrome, simplemente le doy a
construir y automáticamente Google
Studio se pondrá a trabajar para crear
esta aplicación. Pero gracias a esta
nueva función, antes de crearla nos va a
dar cinco opciones de cómo queremos que
se vea. Y aquí podéis ver las cinco
opciones que nos da. Esta oscura
sofisticada, esta vento grit, esta
interfaz inmersiva, esta de alta
densidad y finalmente una de de estética
editorial. Pues bien, seleccionaríamos
la que más nos interesase y simplemente
una vez la tuviésemos seleccionada le
daríamos aquí a seleccionar diseño y
automáticamente se pondría a construir
nuestra aplicación. Y una vez completase
el proceso, llegaríamos a un resultado
similar a este de aquí, que, como podéis
ver, cumple con todas las funciones que
nosotros queríamos. Podemos introducir
aquí el texto de la locución, por
ejemplo, el mismo texto que he utilizado
antes para el vampiro. Aquí arriba
tenemos un botón que nos permite añadir
automáticamente las etiquetas de
expresividad, por lo que simplemente voy
a pulsarlo. Y tal y como podéis ver,
acaba de introducir instrucciones para
guiar un poco la emoción y la
interpretación sobre esta locución. Una
vez hecho, aquí podemos seleccionar los
diferentes idiomas. En este caso es en
español y seleccionar entre las
diferentes voces. En este caso voy a
dejar esta de Mateo. Y con todo esto
hecho, simplemente tengo que darle a
generar locución. Y en la misma
interfaz, una vez lo ha generado, puede
reproducir el resultado. [grito ahogado]
Llevo siglos esperando.
¿Sabes lo que es ver pasar el mundo
entero desde las sombras sin envejecer,
sin olvidar? Por lo que de un modo muy,
pero que muy sencillo, podéis tener una
aplicación a medida para generar todas
las voces que vosotros queráis, por lo
que con todo lo que has visto hasta
ahora, te habrás dado cuenta que la
utilidad de este modelo es enorme. Si
creas vídeos en YouTube, las locuciones
de tus 20 vídeos en castellano las
puedes generar en inglés, portugués,
francés y alemán con la misma intención
que pusiste en los originales. Tu canal
puede multiplicar tu audiencia por cinco
sin volver a grabar nada. Si vendes
cursos, las locuciones de tus textos
lectivos ahora puedes traducirlas a
cinco idiomas, manteniendo el tono
emocional que tú decidas con tu estilo.
Puedes dirigirte a tres mercados nuevos
en un fin de semana. Si trabajas en una
empresa que produce formaciones o vídeos
corporativos, las locuciones de cada
pieza las tienes en todos los idiomas
donde haya oficinas. Lo que hasta esta
semana era un proyecto de agencia con
facturas que podían llegar a las cinco
cifras, ahora se convierte en un prom.
Todos estos perfiles pagaban por esto
hasta el martes, aplicaciones como
Eleven Labs o agencias de localización o
a un freelance por cada uno de los
idiomas. El nuevo modelo de Gémini es un
modelo con un propósito general y se ha
comido ese rol especializado y eso me
lleva a lo que de verdad quería contarte
hoy. Y es que hoy Google se ha comido
parte del negocio de Eleven Labs con una
actualización, no con un producto nuevo,
con una actualización de un modelo. La
semana pasada otro modelo hice relevante
una función de Figma. El mes anterior,
otra de Adobe o Blender. El patrón es
siempre el mismo, lo que antes requería
una app especializada, poco a poco lo
hace un modelo de inteligencia
artificial y muchas veces gratis y
encima cada vez mejor. Y el modelo tiene
dueño: Google, Openai, Antropic, Meta,
cuatro o cinco nombres en Estados Unidos
y cuatro o cinco nombres más en China.
El software se lo están comiendo los
modelos y los modelos los controlan muy
pocos. Cada actualización que celebramos
es una capa de aplicación que
desaparece. y un poco más de poder que
se concentra arriba. No sé si esto es
bueno o malo, pero es evidente que está
pasando y que la mayoría no se ha parado
pensarlo. Recuerda, en la descripción te
dejo el enlace al GEM que escribe los
proms optimizados para este modelo y al
prom para crear tu aplicación en i
Studio. Y si quieres saber cómo la
inteligencia artificial no solo se carga
apps, sino que también amenaza mi
trabajo, puedes verlo en este vídeo de
aquí. Nos vemos en el próximo vídeo.
Ask follow-up questions or revisit key timestamps.
Google ha lanzado un nuevo modelo de voz dentro de la familia Gémini que permite un control avanzado sobre la expresividad y la emoción, superando a herramientas establecidas como Eleven Labs. El vídeo explica cómo utilizar este modelo a través de Google AI Studio, ofreciendo guías para crear prompts efectivos, usar el modo 'Composer' para múltiples voces y desarrollar una aplicación de generación de voz personalizada de forma gratuita. Además, reflexiona sobre cómo estos avances en modelos de inteligencia artificial están desplazando a aplicaciones especializadas, concentrando el poder en pocas empresas tecnológicas.
Videos recently processed by our community