Cómo hacer VOCES REALISTAS con IA (gratis)

Watch on YouTube

Now Playing

Transcript

526 segments

0:00

Google presenta un nuevo Gémini y esta

0:02

vez amenaza todas las startups de

0:04

generación de voz y te da gratis una de

0:06

sus funciones más interesantes y encima

0:08

la mejora. El control de la expresividad

0:11

ahora es como dirigir un actor y es que

0:14

permite hacerlo de un modo que no

0:15

imaginas. Escucha esto.

0:18

Esta voz no existe. No hay nadie al otro

0:22

lado y sin embargo, algo en ti quiere

0:26

seguir escuchando.

0:28

Ahora escucha esto. Esta voz no existe.

0:34

No hay nadie al otro lado

0:38

y sin embargo,

0:40

algo en ti quiere seguir escuchando.

0:44

mismo texto, pero diferente voz,

0:46

diferente interpretación y diferente

0:48

tono. Y yo tengo control total de cada

0:50

uno de estos detalles. Y ojo, que si

0:53

quiero puedo traducirlo a otros idiomas

0:55

también.

1:11

Todo esto lo ha generado el nuevo modelo

1:13

de la familia de Gémini que Google sacó

1:15

esta semana. Y lo he hecho todo gratis y

1:18

es [música] brutal porque lo que acabas

1:20

de huir, locuciones con emoción dirigida

1:22

en varios idiomas y con control total

1:23

sobre la interpretación es lo que

1:25

justifica pagar por otras herramientas y

1:27

encima este modelo lo hace mejor. Para

1:30

que te hagas una idea, en el ranking más

1:32

importante de voces sintéticas ya has

1:34

superado a Eleven Labs, una herramienta

1:36

muy útil tanto para hacer tu contenido

1:38

más accesible en tu página web como para

1:40

crear nuevo contenido o para traducirlo

1:42

a múltiples idiomas, por lo que hoy

1:44

vamos a exprimir esta novedad al máximo.

1:47

Al terminar el vídeo habrás aprendido

1:49

cómo usar este modelo y también podrás

1:51

crear paso a paso una aplicación con una

1:53

interfaz a medida que genera estas

1:55

locuciones en diferentes idiomas de modo

1:57

automático. una aplicación muy útil que

2:00

crearás de un modo muy muy fácil gracias

2:02

a otra novedad de Google, [música]

2:03

también gratuita.

2:07

Y para que entiendas por qué este nuevo

2:08

modelo de Google es distinto, hay un

2:10

detalle en la documentación de este

2:11

modelo que se le ha prestado poca

2:12

atención y que soluciona el principal

2:14

problema de las voces sintéticas a las

2:16

que puedes acceder de modo gratuito.

2:18

Escucha este ejemplo de un modelo

2:20

anterior que puedes ejecutar en local

2:21

como el Quen TTS. Imagina que pudieras

2:24

escuchar la voz de alguien que ya no

2:26

está, que pudieras recuperar un mensaje

2:29

que nunca se grabó, que la tecnología

2:31

pudiera devolverte algo que creías

2:34

perdido para siempre.

2:35

La generación, como puedes ver, es

2:37

correcta. Las pausas caen donde toca. Se

2:40

entiende lo que dice. Correcto. Para

2:41

poder escuchar un texto escrito en una

2:43

web, pero sin control sobre la emoción.

2:46

Y es que la mayoría de los modelos de

2:47

voz tienen una capacidad muy limitada de

2:49

dirigir la emoción si es que la tienen.

2:51

Y sí, ya sé que algunos son compatibles

2:53

con las etiquetas de emoción como

2:55

susurra, enfadado o dubitativo, pero el

2:58

nuevo Gemini 3.1 Flyes Tex to Speech

3:00

hace que este método se vea muy muy

3:02

limitado. Y es que Gémini permite

3:04

escribir una instrucción entera para

3:07

dirigir la intención con la que se va a

3:08

generar la voz. Por ejemplo, con un

3:10

prom,

3:12

donde puedo explicar la escena, el

3:14

contexto e incidir en detalles como el

3:16

acento, en este caso andaluz, y añadir

3:19

además las etiquetas de emociones. Y si

3:21

hago todo esto, consigo un resultado

3:23

como este.

3:24

Qué arte, mi arma. Estás conectado con

3:26

la mejor radio del sur. Tú sigue en el

3:29

atasco que yo te pongo el tema. En tres,

3:33

dos, vámonos. Y lo interesante, como os

3:35

he mostrado en el ejemplo de la

3:36

introducción, es que puedo dirigir la

3:38

interpretación de un modo preciso una

3:40

sola vez y aplicar la locuciones en

3:42

tres, cinco o 10 idiomas sin tocar la

3:44

interpretación. Ahora vamos a ver cómo

3:47

usar este nuevo modelo de Gémini. Con

3:49

tantos modelos de inteligencia

3:50

artificial apareciendo constantemente,

3:52

que si Sehat GPT, que si Cloud, que si

3:54

Gémini, que si Deepsic, es difícil saber

3:56

cuál usar en cada momento. Y claro, para

3:59

probarlos todos necesitas registrarte en

4:01

cada servicio por separado, cada uno con

4:03

su interfaz y su suscripción. Por eso

4:05

quiero hablarte de Mammut. Ai, los

4:07

patrocinadores de este vídeo. Mammuth te

4:10

da acceso a todos los modelos premium

4:11

desde una sola interfaz: Chat GPT,

4:13

Clope, Gémini, Yama, Deepsic, Perplexity

4:16

y muchos más. Pero lo realmente útil es

4:18

poder lanzar el mismo prom a varios

4:20

modelos y comparar las respuestas. Así

4:22

sabes cuál te da el mejor resultado para

4:24

cada tarea, sin tener que ir probando

4:26

uno por uno. Y además incluye generación

4:29

de imágenes con flux y recraft. Y no

4:31

solo esto, puedes animarlas con Beo,

4:34

Sora, Grock y Clean. Análisis de

4:36

[resoplido] documentos y deep research

4:37

con Perplexity. Y algo muy importante,

4:40

Mamuth es una empresa europea con sede

4:42

en Francia y los datos alojados en

4:43

Alemania. Cumple con el reglamento de

4:45

protección de datos. Los proveedores no

4:47

guardan tus proms y tus conversaciones

4:49

no se usan para entrenar modelos. Si

4:51

trabajas con información sensible, esto

4:53

es indispensable. Todo esto con una sola

4:56

suscripción desde solo 10 € al mes sin

4:58

permanencia. Te dejo el enlace en la

5:01

descripción para que lo pruebes.

5:05

Por lo que ahora sí vamos a ver cómo

5:07

funciona este modelo, cómo podéis

5:08

acceder a él y cómo lo podéis utilizar

5:10

gratis. Y lo vamos a hacer a través de

5:12

tres ejemplos, tres pruebas que os harán

5:14

replantear la necesidad de pagar por

5:15

herramientas de este tipo. Para

5:17

utilizarlo es muy sencillo, simplemente

5:20

tenéis que acceder a Google i Studio en

5:22

la sección de Playground y una vez aquí

5:25

podéis acceder a todos los modelos que

5:27

nos ofrece Google. Podéis ver que hay

5:29

diferentes familias. Está la familia de

5:31

Gémini, la Live, la de imágenes, la de

5:33

vídeo y también está la de audio, por lo

5:36

que simplemente seleccionamos la familia

5:38

de modelos de audio y aquí seleccionamos

5:40

el Gemini 3.1 Flash TTS Preview. Una vez

5:44

hecho, simplemente clicamos aquí y ya

5:46

podemos empezar a generar nuestras

5:48

voces. Para hacerlo tenemos dos modos.

5:52

Por un lado, el modo composer, que lo

5:54

que nos permitirá es ir añadiendo

5:56

diferentes bloques con diferentes voces.

5:58

Esto lo veremos en el segundo ejemplo. Y

6:00

por otro lado, simplemente introducir

6:02

una instrucción de texto, que esto lo

6:05

veremos en este primer ejemplo y en el

6:07

último, por lo que empezamos por un

6:09

primer ejemplo muy sencillo para que

6:10

veáis cómo funciona. Le voy a poner aquí

6:13

un texto que lo único que incorpora son

6:14

algunas de estas etiquetas para dirigir

6:16

la emoción, como con confianza, de un

6:18

modo cálido o más despacio. La locución

6:21

es esta que estáis leyendo. Hoy te voy a

6:23

enseñar algo que va a cambiar cómo

6:24

trabajas con audio. No necesitas

6:25

experiencia previa, no necesitas pagar

6:27

nada. y en 15 minutos vas a tener

6:29

resultados que hasta hace una semana

6:30

costaban dinero. Una vez tenemos el

6:32

texto ya preparado, aquí podemos

6:35

configurar algunos elementos más, como

6:37

por ejemplo las diferentes voces

6:38

disponibles, que podéis ver que hay un

6:40

montón. En este caso voy a dejar la que

6:42

viene por defecto. Y aquí arriba tenemos

6:44

las notas del director donde podemos

6:47

seleccionar entre diferentes estilos,

6:49

diferentes ritmos y también entre

6:51

diferentes acentos, aunque los acentos

6:53

están un poco limitados a cuando estamos

6:56

generando textos en inglés. Si bien es

6:58

cierto que si los ponemos en la

6:59

instrucción también funcionan para otros

7:01

idiomas como el español. Y dicho esto,

7:03

también podemos condicionar la

7:05

temperatura del modelo. Y esto es

7:07

especialmente interesante cuando le

7:08

damos instrucciones más extensas, por lo

7:10

que lo veremos en el tercer ejemplo. Una

7:13

vez está todo configurado, simplemente

7:15

le tenemos que dar a run y este sería el

7:17

resultado.

7:18

Hoy te voy a enseñar algo que va a

7:20

cambiar cómo trabajas con audio. No

7:23

necesitas experiencia previa, no

7:26

necesitas pagar nada y en 15 minutos vas

7:29

a tener resultados que hasta hace una

7:32

semana costaban dinero y lo mejor es que

7:36

solo necesitas un navegador.

7:39

Como podéis ver, el resultado es

7:40

correcto, pero aún no es muy

7:41

espectacular. La idea es que esta

7:44

instrucción sea mucho más compleja. Pero

7:46

antes de ver un ejemplo de cómo creamos

7:48

esta instrucción, lo que vamos a ver es

7:50

cómo funciona la herramienta de

7:52

Composer, que es la que nos permite

7:53

crear de un modo sencillo locuciones con

7:55

varias personas o varias voces hablando

7:58

en ella. De este modo, para

7:59

configurarlos, simplemente tenemos que

8:00

darle añadir otro bloque de locución. Y

8:03

una vez aquí, pues podemos seleccionar

8:05

pues las diferentes voces que queremos

8:07

que hablen. Por ejemplo, podemos dejar

8:09

la voz que hemos visto anteriormente, la

8:11

cefir, y para la segunda voz nos

8:13

quedaremos con Pu, que es una voz

8:15

masculina. Y una vez hecho esto,

8:17

simplemente añadiríamos las

8:19

instrucciones del mismo modo que hemos

8:20

hecho antes, una para Céfir y otra para

8:23

PUC. Una vez hecho, simplemente le damos

8:26

a Ran y ya habríamos generado una

8:28

locución con dos voces distintas. Este

8:31

es el resultado.

8:32

A ver, yo lo digo claro. En 2 años nadie

8:35

va a pagar por una herramienta de voz.

8:38

Nadie. Los modelos gratuitos se las van

8:41

a comer.

8:42

Eso dijiste de las herramientas de

8:43

diseño hace un año y Figma sigue

8:46

facturando.

8:47

Como podéis ver, también una generación

8:49

muy correcta, pero hasta ahora solo

8:50

hemos visto dos ejemplos básicos con

8:52

algo que podían hacer la mayoría de

8:54

herramientas. Ahora es cuando la cosa se

8:56

pone interesante y cuando este modelo de

8:58

Google destaca respecto a la

9:00

competencia, lo que realmente te hace

9:02

plantearte si merece la pena pagar por

9:04

otras herramientas. Y es que no solo le

9:06

podemos dar estos textos con algunas

9:08

anotaciones en forma de etiquetas, sino

9:10

que le podemos proporcionar una

9:12

instrucción muy extensa con lo que

9:14

queremos que diga el personaje. Una

9:16

instrucción, por ejemplo, como esta. una

9:18

instrucción donde definimos el tipo de

9:20

escena dónde irá este audio, donde le

9:23

damos las notas del director con el

9:25

estilo y también con el ritmo y la

9:27

emoción, además de la proyección de la

9:30

voz. También un poco un ejemplo de

9:32

contexto y finalmente la transcripción

9:35

que también incluye estas etiquetas. De

9:38

este modo, si hacemos todo esto, es

9:40

cuando realmente sacamos partido al

9:42

modelo, por lo que vamos a generar esta

9:44

locución para que veáis la diferencia

9:45

respecto a las anteriores. Simplemente

9:48

le damos a ran, manteniendo la misma voz

9:50

que antes y este es el resultado.

9:52

Hay cosas que solo entiendes cuando ya

9:55

han pasado,

9:57

cuando miras atrás y ves el momento

10:00

exacto en que todo cambió. No fue un día

10:04

grande.

10:06

No hubo aplausos ni titulares.

10:09

Fue

10:11

un martes cualquiera,

10:14

una decisión pequeña que no parecía

10:16

importante,

10:18

pero lo era y ahora lo sabes porque

10:23

estás aquí. Y aquí

10:26

es exactamente

10:28

donde tenías que llegar.

10:30

Esto ya es otra cosa, ¿verdad? La

10:31

calidad es claramente superior a lo que

10:33

habíamos visto en los dos primeros

10:34

ejemplos. No os preocupéis por cómo

10:36

escribir estos proms, porque ahora a

10:38

continuación os voy a explicar cómo

10:40

acceder a un asistente que los escribe

10:42

automáticamente. Pero antes de ver este

10:44

asistente quiero que escuchéis esta

10:45

misma locución en dos idiomas más. Uno

10:48

en inglés, donde la calidad sube

10:50

enormemente y es que el modelo funciona

10:52

mucho mejor en inglés. Y luego en

10:54

catalán un idioma no tan popular como el

10:56

español o el inglés, donde este modelo

10:58

también funciona muy bien.

11:12

It wasn't

11:14

there was applause, no headlines.

11:19

was ordinary Tuesday

11:22

a small decision that didn't seem to

11:25

matter.

11:38

Y ahora el ejemplo en catalán. Ha, coses

11:40

que només entens quan han passat. Quan

11:44

mires enrere y veus el moment exacte en

11:47

que to va canviar. No va ser un gran

11:51

dia. [resoplido] No va ha aplaudiments

11:53

ni titulars.

11:55

Va ser un dimarsal,

11:58

una decisi petita que no sbla important

12:02

per y

12:05

ho saps et aquí y aquí.

12:10

Es exactamente una vía hasta arriba.

12:12

Y una vez visto lo bien que puede llegar

12:14

a funcionar esta herramienta, toca ver

12:16

cómo podemos escribir estos proms de un

12:17

modo mucho más sencillo. Yo lo que he

12:19

hecho a partir de toda la documentación

12:21

y buenas prácticas que ha compartido

12:22

Google sobre este modelo es crear este

12:24

asistente de aquí, Proms para Gémini 3.1

12:27

texto speech, que lo que hace es

12:29

guiarnos con varias preguntas para crear

12:32

promps que realmente funcionen según la

12:33

locución que nosotros queremos crear.

12:36

Por ejemplo, ahora le voy a pedir que me

12:37

cree una locución que sea adecuada para

12:39

un personaje tipo vampiro. Le voy a

12:42

decir esto. Quiero crear una locución

12:44

para un vampiro con este texto. Llevo

12:46

siglos esperando. ¿Sabes lo que es ver

12:48

pasar el mundo entero desde la sombra?

12:50

Sin envejecer, sin olvidar. La gente

12:52

cree que es lo peor, es la sed, ¿no? Lo

12:53

peor es la paciencia y la mía acaba de

12:55

terminarse. Pues si le enviamos esto,

12:58

fijaros qué sucede. Analiza el contexto

13:01

y me hace un par de preguntas además de

13:03

darme una primera versión del prom. Por

13:06

ejemplo, si nos fijamos en las dos

13:07

preguntas, vemos que nos pregunta para

13:09

qué finalidad es esta locución y, por

13:12

ejemplo, un detalle que le han quedado

13:13

dudas de cómo quiere que lo resolvamos.

13:16

Por ejemplo, le voy a decir que quiero

13:17

que termine con este susurro gélido. Le

13:19

digo, "Es para un corto. Quiero terminar

13:21

con un susurro gélido." Y cuando se lo

13:23

envío, automáticamente me va a devolver

13:25

ya el promptimizado.

13:28

Aquí lo podéis ver. Por lo que si yo

13:30

copio desde Gémini este prom y vuelvo a

13:33

Google I Studio, obtengo algo como esto.

13:35

Levo siglos esperando.

13:39

¿Sabes lo que es ver pasar el mundo

13:43

entero desde las sombras?

13:46

Sin envejecer,

13:48

sin olvidar.

13:51

La gente cree que lo peor es la sed,

13:55

¿no? Lo peor es la paciencia

14:00

y la mía

14:03

acaba de terminarse. Y este ejemplo

14:06

vuelve a demostrar que este es un modelo

14:07

de generación de voz diferente porque es

14:09

el primer modelo que admite este nivel

14:12

de detalle y control a la hora de darle

14:13

una instrucción para que nos genere la

14:15

locución tal y como nosotros queremos.

14:17

Pero para ello debemos poder escribir

14:19

estos proms tan extensos, por lo que lo

14:22

que voy a hacer es daros este asistente.

14:24

Podéis acceder a él a través del enlace

14:26

que encontraréis en la descripción. Pero

14:29

llegados a este punto, de lo que os he

14:30

hablado hasta ahora es de un modelo, no

14:32

de una herramienta. Y aquí es donde la

14:34

cosa se pone aún más interesante, porque

14:36

podemos crear nuestras propias

14:37

herramientas encima de este modelo de un

14:40

modo gratuito también en Google Studio y

14:43

de paso aprovechar otra novedad de

14:44

Google, por lo que ahora vamos a crear

14:46

nuestra propia aplicación tipo Eleven

14:48

Labs de un modo completamente gratuito.

14:52

Y es que gracias a la última

14:53

actualización que han hecho en Google y

14:55

Studio, ahora crear aplicaciones es más

14:57

fácil que nunca, ya que al darle una

14:59

instrucción para que genere tu

15:00

aplicación, en vez de generarte un único

15:02

diseño, ahora te propone cinco diseños

15:05

alternativos de interfaz. Tú puedes

15:07

escoger el que más te gusta y luego

15:09

desarrolla tu aplicación, por lo que

15:11

vamos a ver cómo funciona con este

15:12

ejemplo de la aplicación para generar

15:13

lociones, por lo que crear nuestra

15:15

aplicación es tremendamente sencillo.

15:16

Simplemente volvemos a Google y Studio y

15:19

pasamos de la sección Playground a la

15:20

sección build. Y una vez en la sección

15:23

build, simplemente pegamos el prom que

15:25

nos permitirá construir nuestra

15:26

aplicación, que esencialmente lo que le

15:28

pido es crear una aplicación que utilice

15:30

el último modelo de texto speech y que

15:32

permita hacer todo esto. Introducir

15:34

texto, mejorarlo automáticamente con

15:36

etiquetas de expresividad usando

15:37

inteligencia artificial, seleccionar voz

15:39

de idioma y que me genere los archivos

15:41

en W y algunas restricciones para

15:43

asegurarme que cree la aplicación

15:44

correctamente. Y una vez le he cargado

15:47

el Chrome, simplemente le doy a

15:49

construir y automáticamente Google

15:51

Studio se pondrá a trabajar para crear

15:53

esta aplicación. Pero gracias a esta

15:55

nueva función, antes de crearla nos va a

15:58

dar cinco opciones de cómo queremos que

16:00

se vea. Y aquí podéis ver las cinco

16:01

opciones que nos da. Esta oscura

16:04

sofisticada, esta vento grit, esta

16:07

interfaz inmersiva, esta de alta

16:10

densidad y finalmente una de de estética

16:14

editorial. Pues bien, seleccionaríamos

16:17

la que más nos interesase y simplemente

16:19

una vez la tuviésemos seleccionada le

16:21

daríamos aquí a seleccionar diseño y

16:23

automáticamente se pondría a construir

16:25

nuestra aplicación. Y una vez completase

16:27

el proceso, llegaríamos a un resultado

16:29

similar a este de aquí, que, como podéis

16:31

ver, cumple con todas las funciones que

16:32

nosotros queríamos. Podemos introducir

16:34

aquí el texto de la locución, por

16:36

ejemplo, el mismo texto que he utilizado

16:38

antes para el vampiro. Aquí arriba

16:40

tenemos un botón que nos permite añadir

16:41

automáticamente las etiquetas de

16:43

expresividad, por lo que simplemente voy

16:45

a pulsarlo. Y tal y como podéis ver,

16:48

acaba de introducir instrucciones para

16:51

guiar un poco la emoción y la

16:53

interpretación sobre esta locución. Una

16:56

vez hecho, aquí podemos seleccionar los

16:59

diferentes idiomas. En este caso es en

17:01

español y seleccionar entre las

17:02

diferentes voces. En este caso voy a

17:04

dejar esta de Mateo. Y con todo esto

17:07

hecho, simplemente tengo que darle a

17:09

generar locución. Y en la misma

17:11

interfaz, una vez lo ha generado, puede

17:13

reproducir el resultado. [grito ahogado]

17:15

Llevo siglos esperando.

17:19

¿Sabes lo que es ver pasar el mundo

17:22

entero desde las sombras sin envejecer,

17:27

sin olvidar? Por lo que de un modo muy,

17:30

pero que muy sencillo, podéis tener una

17:31

aplicación a medida para generar todas

17:34

las voces que vosotros queráis, por lo

17:35

que con todo lo que has visto hasta

17:37

ahora, te habrás dado cuenta que la

17:38

utilidad de este modelo es enorme. Si

17:40

creas vídeos en YouTube, las locuciones

17:42

de tus 20 vídeos en castellano las

17:44

puedes generar en inglés, portugués,

17:45

francés y alemán con la misma intención

17:48

que pusiste en los originales. Tu canal

17:50

puede multiplicar tu audiencia por cinco

17:52

sin volver a grabar nada. Si vendes

17:54

cursos, las locuciones de tus textos

17:56

lectivos ahora puedes traducirlas a

17:57

cinco idiomas, manteniendo el tono

17:59

emocional que tú decidas con tu estilo.

18:02

Puedes dirigirte a tres mercados nuevos

18:04

en un fin de semana. Si trabajas en una

18:06

empresa que produce formaciones o vídeos

18:08

corporativos, las locuciones de cada

18:09

pieza las tienes en todos los idiomas

18:11

donde haya oficinas. Lo que hasta esta

18:13

semana era un proyecto de agencia con

18:15

facturas que podían llegar a las cinco

18:16

cifras, ahora se convierte en un prom.

18:19

Todos estos perfiles pagaban por esto

18:21

hasta el martes, aplicaciones como

18:23

Eleven Labs o agencias de localización o

18:25

a un freelance por cada uno de los

18:27

idiomas. El nuevo modelo de Gémini es un

18:30

modelo con un propósito general y se ha

18:32

comido ese rol especializado y eso me

18:34

lleva a lo que de verdad quería contarte

18:36

hoy. Y es que hoy Google se ha comido

18:38

parte del negocio de Eleven Labs con una

18:40

actualización, no con un producto nuevo,

18:42

con una actualización de un modelo. La

18:45

semana pasada otro modelo hice relevante

18:47

una función de Figma. El mes anterior,

18:49

otra de Adobe o Blender. El patrón es

18:51

siempre el mismo, lo que antes requería

18:53

una app especializada, poco a poco lo

18:55

hace un modelo de inteligencia

18:56

artificial y muchas veces gratis y

18:59

encima cada vez mejor. Y el modelo tiene

19:02

dueño: Google, Openai, Antropic, Meta,

19:05

cuatro o cinco nombres en Estados Unidos

19:07

y cuatro o cinco nombres más en China.

19:09

El software se lo están comiendo los

19:11

modelos y los modelos los controlan muy

19:13

pocos. Cada actualización que celebramos

19:15

es una capa de aplicación que

19:17

desaparece. y un poco más de poder que

19:19

se concentra arriba. No sé si esto es

19:22

bueno o malo, pero es evidente que está

19:24

pasando y que la mayoría no se ha parado

19:26

pensarlo. Recuerda, en la descripción te

19:29

dejo el enlace al GEM que escribe los

19:30

proms optimizados para este modelo y al

19:33

prom para crear tu aplicación en i

19:34

Studio. Y si quieres saber cómo la

19:37

inteligencia artificial no solo se carga

19:38

apps, sino que también amenaza mi

19:40

trabajo, puedes verlo en este vídeo de

19:43

aquí. Nos vemos en el próximo vídeo.

Interactive Summary

Ask follow-up questions or revisit key timestamps.

Google ha lanzado un nuevo modelo de voz dentro de la familia Gémini que permite un control avanzado sobre la expresividad y la emoción, superando a herramientas establecidas como Eleven Labs. El vídeo explica cómo utilizar este modelo a través de Google AI Studio, ofreciendo guías para crear prompts efectivos, usar el modo 'Composer' para múltiples voces y desarrollar una aplicación de generación de voz personalizada de forma gratuita. Además, reflexiona sobre cómo estos avances en modelos de inteligencia artificial están desplazando a aplicaciones especializadas, concentrando el poder en pocas empresas tecnológicas.