La IA GRATIS le ROBA su ÚLTIMA NOVEDAD a GOOGLE

Watch on YouTube

Now Playing

Transcript

827 segments

0:00

Cada vez está más claro. Lo que pagas

0:02

cada mes por Chatpt, por Cloue, por

0:04

Gémini, tiene fecha de caducidad y esa

0:07

fecha se acaba de anticipar brutalmente

0:09

con las novedades de esta semana.

0:11

Tenemos nuevos modelos de lenguaje open

0:12

source, uno que puedes usar en tu PC, un

0:15

PC medio y que puedes usar para resolver

0:17

tus tareas diarias usándolo como un

0:19

agente como Antigravity o Cowork. La

0:21

inteligencia artificial local ya

0:23

resuelve tareas automáticamente. Te lo

0:25

demostraré. El otro, una bestia que

0:27

compite con lo último de OpenI, pero

0:30

esta transformación afecta a toda la

0:32

inteligencia artificial generativa. En

0:34

noviembre, Google publicó su mejor

0:36

modelo de imagen, Nanobarana Pro,

0:38

cerrado de pago. 6 meses después, un

0:41

modelo open source le planta cara y lo

0:44

puedes ejecutar en un PC medio. El 20 de

0:46

mayo, Google presentó Gémini OVNI, su

0:49

modelo de vídeo más avanzado. 12 días

0:51

después, Bite Dance publica la

0:53

alternativa open source desde China.

0:56

Vermín, 6 meses y 12 días de diferencia.

0:59

Y eso es solo en imagen y vídeo. En

1:02

modelos de lenguaje, Nvidia acaba de

1:04

presentar Nemotron 3 Ultra. Rinde como

1:06

GPT 5.5 a una décima parte del precio y

1:10

Google un nuevo Gema 4. Hoy te enseño

1:13

qué puedes hacer con los cuatro y te

1:15

explico por qué lo que estás viendo no

1:17

es solo una noticia. Es la constatación

1:19

de que haya abierta una ventana de

1:21

oportunidad a la que puedes sacar

1:22

provecho antes de que se cierre. Estoy

1:25

convencido de ello porque sigo la

1:26

inteligencia artificial en local desde

1:28

antes de la llegada de Chat GPT, por lo

1:30

que hoy también te voy a explicar porque

1:32

creo que lo va a cambiar todo.

1:35

Y empezamos por la primera novedad, un

1:37

viejo conocido que ha cambiado mucho.

1:39

Ideogram. Han presentado Ideogram 4 y es

1:42

open source. Se coloca como un modelo al

1:45

nivel de la noarana pro en los rankings.

1:47

Si no lo recuerdas, detrás de Biograma

1:48

hay un equipo de investigadores que

1:49

salieron de Google Brain, el laboratorio

1:51

donde Google desarrolla sus modelos de

1:53

inteligencia artificial más avanzados.

1:55

Se fueron a Toronto, montaron su propia

1:57

empresa y se obsesionaron con una sola

1:59

cosa, generar imágenes con texto

2:01

incrustado legible. Más que un generador

2:04

de imágenes, querían un generador de

2:05

creatividades gráficas, acercarse más al

2:08

trabajo del diseñador gráfico que no al

2:09

del fotógrafo o ilustrador y lo

2:12

consiguieron. Ahora hay muchos modelos

2:14

que lo hacen bien, pero fue el primero

2:16

que apostó por ello. En su momento, sus

2:18

modelos eran de código propietario,

2:20

cerrados, pero han decidido que la nueva

2:22

versión de su modelo sea open source,

2:24

por lo que ahora tenemos un modelo al

2:26

nivel de nano pro con capacidad para

2:28

generar imágenes, editar imágenes y

2:30

renderizar texto completamente gratuito.

2:33

El modelo ya está disponible y lo puedes

2:35

descargar ahora mismo. Puedes ejecutarlo

2:37

y también reentrenarlo, por ejemplo,

2:40

para adaptarlo a tu estilo. Vamos a

2:42

verlo en acción. Y usar ideograma en

2:43

local es muy sencillo. No tenéis que

2:46

preocuparos de ir a descargar los

2:47

modelos ni nada por el estilo.

2:49

Simplemente acced a la web de Confi y

2:52

descargar la aplicación. Una vez la

2:54

tengáis instalada, simplemente tendréis

2:55

que cargar una plantilla. Accederéis a

2:58

una interfaz como esta. Y si os fijáis

3:00

aquí a la izquierda en este menú, pues

3:02

el último elemento es el de plantillas.

3:04

Si accedéis aquí y en la parte del

3:06

buscador, pues buscáis precisamente

3:09

Ideogram, pues os aparecerá esta

3:11

plantilla de aquí, Ideogram V4, texto a

3:14

imagen. Simplemente la seleccionáis y

3:17

automáticamente se os cargará en vuestra

3:20

interfaz. Por lo que una vez visto cómo

3:22

se instala, que ya habéis visto que es

3:23

muy muy fácil, toca generar algunas

3:25

imágenes en local con este modelo. Aquí

3:28

podéis ver un primer ejemplo. Este en

3:30

concreto lo he generado a 4 megapíxeles

3:32

para que podamos ver el detalle que

3:34

genera cuando la imagen es un poco

3:35

grande. Está generada a partir de una

3:38

instrucción de texto que consiste en una

3:39

foto macro de un insecto posado encima

3:42

de una flor. Lo podéis leer con calma. Y

3:44

esta es la imagen que me ha generado. Y

3:46

como podéis ver, el nivel de detalle es

3:48

asombroso. Podemos ver el insecto

3:50

perfectamente posado encima de la flor,

3:52

los diferentes pétalos, las gotas de

3:55

agua y bueno, el estilo que le había

3:56

pedido con este fondo muy desenfocado.

3:59

Una imagen como esta en mi PC se genera

4:01

en unos 2 minutos, pero lo interesante

4:04

es que podemos generar imágenes mucho

4:05

más rápido si reducimos el tamaño. Por

4:07

ejemplo, sin cambiar el prom ni ningún

4:09

otro parámetro, simplemente reduciendo

4:11

el tamaño de la imagen, por ejemplo, a 1

4:13

megapíel, fijaros lo rápido que genera.

4:16

Le doy a ejecutar y empieza a generar la

4:20

imagen. Y aquí podéis ver como la barra

4:22

está progresando y en unos pocos

4:24

segundos, alrededor de 10, 15 segundos,

4:26

nos habrá generado esta misma imagen,

4:28

pero en vez de haberla generado a 4

4:30

megapíxeles, nos la habrá generado a 1

4:32

megapíel. Y en este caso, este sería el

4:35

resultado que obtendríamos a 1 megapíel.

4:37

Obviamente tiene mucho menos detalle,

4:39

por lo que una vez visto cómo funciona

4:41

lo que podemos llegar a crear y lo

4:42

rápido que va, lo que toca ahora es ver

4:44

diferentes ejemplos de lo que puede

4:46

generar este modelo, especialmente

4:48

cuando incluimos texto dentro de las

4:50

imágenes. Los voy a generar en este caso

4:52

todos a 2 megapíxeles. Aquí tendríamos

4:54

el primer resultado. El prome es este de

4:57

aquí. esencialmente una fotografía de

4:59

producto, en este caso de un aceite

5:01

donde lo interesante es fijarnos en los

5:03

textos que debe incluir la imagen.

5:05

Aceite de oliva virgen extra, edición

5:07

limitada de Jaén, cosecha premium, 100%

5:11

artesanal. Pues bien, si nos vamos a la

5:14

imagen que nos ha generado que es esta

5:16

de aquí, pues podemos comprobar cómo

5:18

aparecen estos textos. Aquí tenemos la

5:21

imagen aceite de oliva virgen extra,

5:24

edición limitada de Jaen, cosecha

5:26

premium. 100% artesanal. Lo ha hecho.

5:29

Perfecto. Y una vez vistos estos

5:31

ejemplos de cómo funciona Ideogramen con

5:32

Fui, vamos a seguir con algunos ejemplos

5:35

más y un juego. Y es que creo que es

5:37

interesante compararlo con nano banana,

5:40

de modo que los siguientes ejemplos os

5:41

voy a mostrar, como estáis viendo ahora,

5:43

dos imágenes. Una hecho con ideogram en

5:46

local y otra hecha con nanobanana en

5:49

Gémini. A ver con cuál de las dos os

5:51

quedáis. Este es el primer ejemplo.

5:54

Miradlo bien. ¿Y cuál creéis que ha

5:56

hecho Nanobanana? ¿Y cuál creéis que ha

5:58

hecho Ideogram? En este primer ejemplo,

6:01

la imagen de Nano Banana es la de la

6:04

derecha. Es la que os gustaba más. Os

6:06

gustaba más la de Ideogram. Mientras os

6:08

lo pensáis, vamos con el siguiente

6:10

ejemplo. Es este de aquí. Una imagen

6:13

estilo anime para no hacerlo todo estilo

6:15

fotorrealista. ¿Cuál de las dos os gusta

6:17

más? O ¿cuál creéis que es la de

6:19

Ideogram? ¿Izquierda o derecha? En este

6:22

caso, la imagen de ideogram es la de la

6:24

izquierda, la de la derecha es la de

6:27

Nano Banana. ¿Cuál ha ganado? Mientras

6:29

os lo pensáis, seguimos con el siguiente

6:31

ejemplo. Este diseño de cartel, una de

6:34

las dos la ha hecho Ideogram y la otro

6:36

nano bananana. ¿Con cuál os quedáis?

6:38

¿Con la de la izquierda o con la de la

6:40

derecha? Yo, en este caso, me quedo con

6:43

la de la derecha y es la que ha hecho

6:45

Ideogram. La de nanobanana era la de la

6:48

izquierda. Y finalmente tenemos este

6:51

ejemplo un poquito más recargado con

6:54

este cartel estilo colis donde una de

6:56

las dos imágenes la ha hecho nanobanana

6:58

y la otra Ideogram. ¿Con cuál os

7:01

quedáis? Fijaros bien mientras os

7:03

desvelo que la que ha hecho Nanobanana

7:05

es la de la derecha. En casa he hecho el

7:08

test ciego y ha ganado 3 a un ideogram.

7:12

¿Este es el resultado que habéis

7:13

conseguido vosotros o os han gustado más

7:14

los resultados de Nano Banana? Os leo en

7:17

los comentarios. Y ojo, porque esta ni

7:19

tan siquiera es la máxima calidad que

7:21

puede dar Ideam. Lo he usado en local en

7:23

una versión cuantizada para que la

7:24

mayoría de vosotros lo podáis probar y

7:26

podáis conseguir los mismos resultados.

7:28

Pero, por ejemplo, si lo queréis probar

7:30

a la máxima calidad y no disponéis de

7:31

una buena GPU, lo podemos probar también

7:33

en Magnific, donde ya está disponible.

7:37

De modo que si nos vamos a generar

7:38

imágenes, seleccionamos el modelo de

7:40

Ideogram 4, pues aquí podríamos replicar

7:43

alguno de los ejemplos que hemos hecho y

7:45

veréis como la calidad es incluso mejor.

7:47

De este modo le voy a poner el prom de

7:49

la imagen de la fotografía editorial y

7:52

la voy a generar en calidad, en este

7:54

caso alta. Y aquí podéis ver el

7:56

resultado. Como podéis ver, es un

7:58

resultado de mayor calidad incluso que

8:00

el que yo he conseguido utilizando la

8:02

herramienta en local. Y este no es el

8:04

único ejemplo que he replicado. Aquí

8:06

podéis ver el cartel que me ha hecho con

8:08

el prom estilo collage en Magnific, por

8:11

ejemplo, la imagen del insecto posándose

8:13

encima de esa flor roja o esta imagen de

8:17

aquí con el personaje estilo anime que,

8:20

como podéis ver tiene mucho más detalle

8:22

y muchos más elementos en la imagen. Y

8:24

es que Magnificit

8:26

de creatividad ideal si necesitas

8:28

generar imágenes y vídeo en tu día a

8:30

día. No solo porque es las primeras en

8:32

incorporar los últimos modelos, como

8:34

acabas de comprobar con Ideogram 4, o

8:36

puedes comprobar rápidamente viendo cómo

8:38

tienen disponibles Idens 2, sino porque

8:40

también te permiten trabajar de modo más

8:42

rápido gracias a su nueva función de

8:44

agente. Aquí podéis ver un ejemplo. Le

8:47

pido en una sola instrucción que me

8:49

genere dos personajes, una escena donde

8:52

aparezcan ambos y su hoja de personaje.

8:55

Diseña el plan y yo simplemente lo

8:57

apruebo. automáticamente me genera este

9:00

resultado. Cuatro imágenes, cada una de

9:02

ellas generada con el modelo más

9:04

apropiado, entregadas automáticamente.

9:07

Además, con Magnific

9:10

puedes acceder a la generación de imagen

9:11

y vídeo ilimitado con modelos como Nano

9:13

Banana 2 y Clin 2.5. Encontrarás toda la

9:17

información en el enlace de la

9:19

descripción.

9:21

[música]

9:23

Y ahora vamos a por la otra gran

9:24

novedad, un nuevo modelo de lenguaje

9:26

open source. Y en este caso no viene de

9:28

China, viene de Estados Unidos. Esta

9:31

semana Google ha publicado Gema 4 de

9:34

12,000 millones de parámetros. Es

9:36

totalmente multimodal, procesa texto,

9:38

imagen y audio. Y corre también en tan

9:41

solo 16 GB de memoria. Eso es en un

9:43

portátil actual de gama media alta. Y lo

9:46

bueno de este lanzamiento es que no solo

9:48

podemos probarlo, nos permite compararlo

9:50

con su competencia china. ¿Es mejor o

9:53

peor que los modelos de Quen? Google y

9:55

Alibaba, Estados Unidos y China, ambos

9:58

compitiendo por ver quién te regala el

9:59

modelo más potente. Una guerra comercial

10:02

que en vez de levantar muros está

10:03

democratizando la inteligencia

10:04

artificial. Pero antes de ver los

10:06

ejemplos y la comparación con los

10:08

modelos de Quen, creo que es interesante

10:09

entender qué podemos esperar de este

10:11

nuevo modelo, el Gema 4 de 12,000

10:13

millones de parámetros. y seré muy

10:15

breve, pero esencialmente lo que nos

10:17

dicen es que es un modelo que se puede

10:19

ejecutar en portátiles de consumo, ya

10:21

que solo requiere de 16 GB de RAM y que

10:25

rinde a un nivel similar al modelo de

10:27

26,000 millones de parámetros que

10:29

funciona como un MOE. Aquí podríamos ver

10:32

los resultados de los principales

10:33

benchmarks, pero esencialmente lo que

10:35

han conseguido es que un modelo necesite

10:37

la mitad de memoria para dar un

10:39

rendimiento igual o superior. Y ahora lo

10:41

que vamos a hacer es ponerlo a prueba. Y

10:43

hoy os traigo una sorpresa porque no lo

10:45

vamos a hacer del modo habitual, no

10:47

vamos a chatear simplemente con él, sino

10:49

que lo vamos a utilizar de modo

10:50

agéntico. ¿Y a qué me refiero por un

10:52

trabajo agéntico? Pues esencialmente a

10:54

encargar a este modelo que se va a

10:56

ejecutar en local una tarea que hasta

10:57

hace poco solo le podíamos asignar a

10:59

Cowork o Antigravity. una tarea que

11:02

requiere de skills y de uso de

11:03

herramientas e incluso ejecutar código,

11:06

además de gestionar múltiples recursos

11:07

para llegar a un entregable final, que

11:09

en mi caso será un documento creado a

11:12

partir de la transcripción de un vídeo

11:13

como este que estáis viendo, que incluso

11:15

incluirá una infografía hecho con

11:17

nanobanana. Y es que esta vez vamos a

11:19

seguir ejecutando el modelo en LM

11:21

Studio, pero lo habilitaré vía API para

11:23

que pueda acceder a él el agente de

11:26

Hermes. Como podéis ver aquí abajo tengo

11:28

acceso vía LM Studio, pues a este

11:31

modelo, al YMA 4 de 12,000 millones de

11:33

parámetros. Hermes es una herramienta

11:35

que aún no he traído al canal porque he

11:37

estado investigando con ella cómo poder

11:39

darle utilidad y que nos ofrezca algo

11:41

diferente a lo que realmente podemos

11:43

hacer con otros agentes de inteligencia

11:44

artificial como puede ser antigravity,

11:46

cloud y de un modo más sencillo. Y la

11:48

verdad es que le estoy empezando a

11:50

encontrar casos de uso muy interesantes,

11:52

por lo que si lo que vais a ver a

11:53

continuación os parece interesante,

11:54

decídmelo en los comentarios que

11:56

intentaré traeros algunos vídeos sobre

11:58

esta herramienta. Para simplificar un

12:00

poco, es como una alternativa a

12:02

OpenCloud, un agente que puede utilizar

12:04

herramientas, puede utilizar skills y

12:07

con el que podemos conectar

12:08

prácticamente cualquier modelo, incluso

12:10

modelos que estemos ejecutando en local.

12:13

La idea del ejemplo de hoy es muy

12:14

sencilla. Lo que voy a hacer es utilizar

12:17

esta carpeta de aquí donde está este

12:19

vídeo, que este vídeo es mi último vídeo

12:21

del canal, el vídeo donde os hablaba de

12:22

las últimas novedades de Nvidia y del

12:24

RTX Spark. La idea es poder hacer una

12:28

transcripción y a partir de esa

12:29

transcripción crear un documento que

12:31

contenga una infografía creada con

12:33

nanobanana. Para hacerlo, simplemente

12:36

ahora que lo tengo todo configurado con

12:38

las skills correspondientes y el modelo

12:41

de Yema conectado a la gente, será

12:43

simplemente enviarle un prom como este.

12:45

Eres un agente de producción de

12:46

contenido, ejecuta estos pasos en orden

12:48

sin pedir permiso de confirmación entre

12:50

ellos y esencialmente lo que le voy a

12:53

pedir es que haga una transcripción

12:55

utilizando pues una skill de Whisper. A

12:58

partir de esta transcripción redacte un

13:01

informe que tiene una estructura

13:03

concreta. A partir de aquí, escriba al

13:06

prom para hacer la infografía, llame a

13:08

la API de Nanobanana y cree la imagen y

13:11

finalmente maquete toda esta información

13:13

en un documento de Word con mi identidad

13:16

de marca. Y esto lo podrá hacer gracias

13:18

a una skill. El objetivo final es que

13:21

entregue un archivo en formato A to Kcks

13:23

maquetado con la infografía integrada y

13:26

simplemente se lo envío. Y aquí podéis

13:28

ver cómo empieza a trabajar y realmente

13:31

trabaja de un modo muy rápido. Este es

13:32

un modelo muy ligero. La duda es si será

13:35

capaz de manejar todo este entorno

13:37

agéntico para llegar al resultado

13:39

correcto. Y el agente ya ha terminado,

13:41

me ha dado la respuesta y me dice que ya

13:43

tengo el informe generado. Antes de ver

13:45

el informe, simplemente repasar muy

13:46

rápidamente el proceso que ha seguido.

13:48

Fijaros cómo ha seguido un proceso muy

13:50

similar al que seguiría, por ejemplo,

13:52

Cloud Cowork. Ha consultado la lista de

13:54

skills que tenía disponible. ha

13:56

seleccionado una skill en concreto, la

13:58

de transcripción de Whisper, que era

14:00

necesaria para extraer la transcripción

14:01

del vídeo. Y a medida que vamos bajando,

14:05

podemos ver el resto del proceso.

14:06

Podemos ver que una vez ha ejecutado la

14:08

skill, también ha ejecutado diferentes

14:09

scripts de Python para ir completando el

14:11

proceso. Y si vamos bajando, podemos ver

14:14

cómo ha utilizado otra skill, que era la

14:15

de maquetar el documento con mi

14:18

identidad de marca. De modo que si vamos

14:19

a la carpeta donde antes solo había el

14:21

vídeo de YouTube, ahora nos encontramos

14:23

con todos los recursos que ha ido

14:24

creando para completar el trabajo. Es

14:27

decir, nos encontramos con el audio

14:29

extraído a partir del vídeo. Nos

14:31

encontramos también con la transcripción

14:33

y como podéis ver es correcta. También

14:36

nos encontramos con la infografía que ha

14:38

generado con nanobanana y también el

14:41

texto del informe sin maquetar. Y

14:44

finalmente pues el archivo doc X que

14:47

luce de esta manera. Lo abrimos y aquí

14:49

podéis ver cómo ha introducido los

14:52

encabezados correctos con mi logo y el

14:54

texto pues sigue mis colores

14:56

corporativos y sigue este estilo de

14:59

cajas coherente a lo largo de todo el

15:01

documento. Y si bajamos un poco más,

15:04

pues nos encontramos como también ha

15:06

incorporado la infografía. Como podéis

15:08

ver, un trabajo muy solvente que hasta

15:11

hace poco solo podíamos hacer con

15:13

agentes como Clockco War Antigravity y

15:15

apoyándonos en modelos en la nube. Ahora

15:17

lo podemos hacer con un agente open

15:19

source, como es el caso de Hermes y

15:21

utilizando incluso modelos en local como

15:23

es este Gema 4. Y una vez visto lo que

15:25

es capaz de hacer este modelo en un

15:27

entorno agéntico, toca ir a la

15:28

comparación con los modelos chinos, con

15:30

los modelos de Alibaba, la familia de

15:32

Quen. Y para hacerlo, lo que he hecho es

15:34

centrarme en un caso de uso

15:36

paradigmático, es decir, el caso de uso

15:38

que para mí es más relevante a la hora

15:39

de utilizar modelos en local, como es

15:41

procesar información sensible, extensa y

15:44

que no queremos que viaje a la nube.

15:46

Para ello utilizo este documento que es

15:48

la memoria anual de Mercadona. ¿Por qué?

15:51

porque es un documento extenso y que

15:52

contiene una gran cantidad de datos

15:54

fácilmente verificables. Por lo que lo

15:56

que hago es pedirle al modelo, en este

15:58

caso al Gema 4 de 12,000 millones de

16:00

parámetros, que genere un informe muy

16:02

extenso con una estructura concreta y

16:04

que me permita verificar esta

16:06

información. Y lo que me devuelve es un

16:08

informe como este que estáis viendo

16:10

aquí, un informe con muchos bloques, un

16:12

bloque de radiografía financiera con

16:14

todos estos datos que puedo verificar,

16:16

un bloque de mapa operativo con todos

16:19

estos datos que también se pueden

16:20

verificar, el bloque de capital humano,

16:23

donde están datos como la plantilla, el

16:24

desglose por país, porque está España y

16:26

Portugal, sostenibilidad y medio

16:28

ambiente y así hasta un total de ocho

16:31

bloques a de los cuales le pido que

16:33

saque una gran cantidad de información.

16:35

Este informe se lo he pedido al Gema 4

16:36

de 12,000 millones de parámetros y en su

16:38

momento también se lo pedí al quen 3.5

16:40

de 9,000 millones de parámetros. Es esta

16:43

conversación de aquí. Y también fue

16:45

capaz de generar un informe realmente

16:48

muy muy extenso. De hecho, aparecen los

16:51

ocho bloques, por lo que ahora lo único

16:53

que necesito es un árbitro que compare

16:55

estos dos informes y me diga cuál es

16:58

mejor. Y este árbitro es Cloud. Y ya

17:00

estamos en Cloud. Lo que he hecho es muy

17:03

sencillo. Le he pasado el informe en

17:05

PDF, el informe original, la fuente, y

17:07

los dos informes generados. El primer

17:09

informe es el de Gema 4 de 12,000

17:10

millones de parámetros y el segundo es

17:12

el que ha generado el quen de 9,000

17:14

millones de parámetros. Y simplemente le

17:16

he pedido que los compare respecto a la

17:18

fuente y me dé tablas comparativas. De

17:21

modo que si vamos bajando nos

17:23

encontramos con este primer resultado,

17:26

un primer resultado donde vamos viendo

17:28

la información que ha ido seleccionando

17:30

y comparando del informe uno y del

17:32

informe dos. Y lo cierto es que el

17:35

resultado es bastante sorprendente

17:36

porque cuando nos vamos a la columna de

17:38

quién acierta tiende a ganar el informe

17:40

dos, el informe del modelo chino de

17:43

Quen, que además es un modelo más

17:44

pequeño y que ya tiene algunos meses. De

17:47

hecho, aquí podéis ver como en algunos

17:50

casos gana el modelo chino porque

17:52

simplemente Geman no ha mencionado

17:54

algunos datos, por lo que gana el

17:57

informe dos. En otros empatán y cuando

18:00

vamos aquí al final nos damos cuenta de

18:02

que en la valoración global termina

18:05

ganando el modelo de Alibaba. Le da una

18:08

nota media de 9,1 por un 8,3 al informe

18:12

del modelo de Google. La conclusión pues

18:14

la tenemos aquí. El informe uno, que

18:16

sería el de Gema 4, pues es muy bien

18:18

organizado por bloques temáticos,

18:20

lenguaje claro, incluye detalles de

18:22

crisis de la Dana y sección de

18:24

innovación con todas las herramientas y

18:25

sus funciones, más legible para

18:27

dirección no técnica, mientras que el

18:30

informe 2 aporta una capa financiera

18:32

superior y más rigor en las citas con

18:35

números de página y reconoce mejor los

18:37

límites del documento. Es un análisis

18:39

más de analista. Vamos, que en general

18:42

lo ha hecho mejor este modelo chino que

18:44

como os digo, tiene ya unos meses de

18:47

antigüedad y además es un modelo más

18:49

pequeño. Por lo que para este tipo de

18:51

tareas, que como os digo son las tareas

18:52

habituales donde merece realmente la

18:54

pena utilizar un modelo en local, el

18:56

modelo de Quen quizás sea aún una mejor

18:58

opción. ¿Hacen esto al nivel de Clow

19:00

Topus o GPT 5.5? [música] Pues como

19:03

habéis podido ver, para esta tarea

19:04

concreta el resultado es prácticamente

19:05

idéntico, pero siendo sinceros, para

19:07

tareas más complejas los modelos de pago

19:09

siguen muy por delante. Pero para lo que

19:12

acabas de ver, que es lo que la mayoría

19:14

hace ocho de cada 10 veces que abre Chat

19:16

GPT, esto funciona y funciona en tu

19:18

máquina. Y los dos los han liberado con

19:20

licencia Apache 2.0. Eso significa que

19:22

los puedes usar para lo que quieras,

19:24

incluso con finalidad comercial, sin

19:26

pedirle permiso a nadie. Hace un año, un

19:29

modelo de este tamaño no hacía esto con

19:30

esta calidad. Hoy sí y dentro de 6 meses

19:33

serán incluso mejores. Si confiamos en

19:36

Carpazi, uno de los referentes y

19:38

cofundadores de Openai, los modelos de

19:40

1000 millones de parámetros podrían ser

19:42

tan capaces que nos pueden llegar a

19:43

parecer prácticamente una IGI.

19:46

Es curioso que en la historia del sector

19:48

todo se centrara tanto en la

19:49

escalabilidad. Vamos a crear modelos

19:52

mucho más grandes con billones de

19:54

parámetros. En cuanto a su tamaño,

19:56

crecieron y ahora incluso han empezado a

19:59

reducirse. Sus modelos son más pequeños.

20:03

Ya predice que podríamos tener núcleos

20:05

cognitivos muy buenos, incluso con 1000

20:07

millones de parámetros. Todo debería ser

20:10

así. Si hablas con un modelo de 1000

20:12

millones de parámetros en 20 años

20:14

tendrías una charla muy productiva.

20:16

Piensa, eh, y se parece mucho más a un

20:18

humano. Es decir, algún día quizá la IGI

20:22

viva en tu ordenador, pero aunque no

20:23

lleguemos a ese nivel, hay un gran

20:25

margen de mejora todavía. Por lo que la

20:28

pregunta ya no es si estos modelos que

20:29

podemos ejecutar hoy en día son

20:31

suficientemente buenos. La pregunta que

20:33

debes hacerte es, ¿en qué momento estos

20:35

modelos ya podrán cubrir la mayor parte

20:37

de tus necesidades de un modo óptimo? En

20:39

cuanto llegue ese momento, ¿por qué

20:41

deberías pagar o depender de la nube por

20:43

mucho que los últimos modelos sean

20:44

mejores? Pero la calidad es solo un

20:47

argumento para apostar por ellos. Hay

20:49

otros que tienen más importancia y que

20:51

te dan una ventaja enorme.

20:55

Vamos a hacer una cuenta rápida, 3,000 €

20:57

que es lo que te puede costar un PC de

20:59

gama media alta dividido entre 20 € al

21:01

mes. ¿Cuánto te da? 150 meses. Casi 12

21:05

años y medio de pago de suscripción. La

21:08

conclusión haciendo esta cuenta puede

21:10

parecer obvia. ¿Para qué vas a gastar

21:12

eso para ejecutar modelos en tu máquina?

21:14

Pero quizá estés aplicando la lógica

21:16

errónea porque estás comparando cosas

21:18

que no son comparables. El pago de

21:20

suscripción te da acceso a un modelo

21:22

genérico, el mismo para ti que para

21:24

otros 200 millones de personas que

21:26

pueden tener necesidades opuestas a las

21:28

tuyas. Y sí, puedes condicionar sus

21:31

respuestas, instrucciones

21:32

personalizadas, GPDs a medida,

21:34

documentos de contexto y para muchas

21:36

tareas es suficiente. Pero un modelo en

21:39

local te deja hacer algo que va un paso

21:41

más allá. Se llama Fine Tuning. Tú le

21:43

das tus propios documentos, factura,

21:45

respuestas, datos reales y reentrenas el

21:47

modelo para que aprenda a replicar tu

21:49

forma de trabajar. No es solo darle

21:51

instrucciones, es que el modelo cambie

21:53

para adaptarse a ti. Y el modo más

21:54

visual de verlo es con imágenes como

21:56

estas que he generado en mi ordenador.

21:58

Aquí puedes ver algunos ejemplos con mi

22:00

cara y aquí otros ejemplos con un estilo

22:03

que entrenamos, pero lo puedes entrenar

22:05

para cualquier tarea o para condicionar

22:07

cualquier capacidad del modelo. Además,

22:09

cuando trabajas en local, tus datos no

22:11

salen de tu máquina, no pasan por un

22:13

servidor de OpenI, de Google ni de

22:15

nadie. Para un abogado, un médico o una

22:17

empresa que trabaje con información

22:18

sensible, esto no es un capricho, es

22:21

prácticamente un requisito. Y hay otra

22:24

cosa que nadie valora hasta que la

22:25

pierde, la estabilidad. El modelo no

22:28

cambia a no ser que tú lo cambies. No te

22:30

actualizan el servicio un martes y el

22:32

flujo de trabajo que tenías montado deja

22:33

de funcionar. No te suben al precio, no

22:36

te recortan funciones ni te cambian las

22:37

reglas sin avisar. En local no usas

22:40

modelos, construye sistemas de los que

22:42

eres propietario. Con herramientas como

22:44

Confi puedes montar un sistema que haga

22:46

una tarea específica de principio a fin,

22:48

por específica y concreta que sea. Tú lo

22:50

diseñas una vez y después funciona solo.

22:53

Significa disponer de la posibilidad de

22:54

construir una máquina que se adapte

22:56

justo a lo que tú necesitas. Y no te voy

22:58

a engañar, la configuración es lenta, no

23:00

es fácil, tampoco es ágil y es un poco

23:03

técnico, todo hay que decirlo, pero

23:05

crear este ecosistema, tómatelo como

23:07

enseñarle a un empleado nuevo. Y una vez

23:09

que lo tengas, este sistema funcionará

23:11

24 horas al día, 365 días al año, sin

23:14

pagar ni sueldo ni suscripciones, sin

23:16

que tus datos salgan de tu ordenador.

23:18

¿Te acuerdas de las cuentas que hemos

23:19

hecho hace un rato? los 3,000 € en 20

23:22

meses. Ahora podremos hacer la cuenta

23:24

diferente. Imagina que consigues

23:26

disponer de un sistema que solucione el

23:28

volumen de tareas que te haría un

23:29

trabajador. Ahora compara esos 3,000 €

23:32

entre lo que te costaría un empleado que

23:33

haga eso durante esos 20 meses. La

23:36

cuenta ya luce diferente, ¿verdad? Y

23:38

recuerda que esto no pasa solo con

23:40

modelos pequeños. Esta semana Nvidia ha

23:42

publicado en Nemotron 3 Ultra. Es

23:44

demasiado grande para tu portátil.

23:46

Necesita un servidor, pero es open

23:48

source. Y el dato importante, rinde al

23:51

nivel de GPT 5.5 a una décima parte del

23:54

precio, 5 centavos donde GPT cobra 56. Y

23:58

si queréis probar este modelo de un modo

23:59

completamente gratuito, lo podéis hacer

24:01

en Open Router, donde podéis ver como el

24:04

Nvidia Emotron 3 Ultra está en estos

24:06

momentos gratuito, por lo que tendríais

24:09

que ir a la pestaña de chat, darle aquí

24:12

arriba añadir modelo y simplemente

24:14

seleccionar el Nemotron 3 Ultra. Y una

24:17

vez seleccionado, pues ya le podéis

24:18

pedir cualquier cosa. Y por ejemplo,

24:20

podéis probarlo como ha hecho este

24:21

usuario, pidiéndole que os haga

24:23

simulaciones físicas en código HTML. Y

24:26

lo que nos dice es que para este tipo de

24:28

tareas, el Nemotron 3 Ultras ha rendido

24:30

el nivel de GPT 5.5, pero 10 veces más

24:33

barato. Nemotron 3 Ultra le ha costado

24:36

apenas 5 centavos, mientras que GPT 5.5

24:40

le ha costado pues algo más de medio dó.

24:43

Por lo que como os decía, es un modelo

24:45

muy prometedor, muy barato y que además

24:47

podemos disponer de él en nuestra propia

24:49

infraestructura. Si no eres una empresa

24:51

pequeña, quizás te salga a cuenta

24:52

disponer de un modelo como este en tus

24:54

servidores. Y ahora, fíjate en la

24:56

ironía. En Nvidia, la empresa que más

24:58

gana cada vez que alguien paga una

24:59

suscripción de inteligencia artificial,

25:01

publica un modelo que compite con esa

25:03

suscripción a una fracción del precio. Y

25:05

no es una empresa sola, es todo el

25:07

ecosistema. Google tiene a Gema, Alibaba

25:10

Queen, Envidia, Nemotron y alrededor de

25:12

cada uno hay una comunidad que construye

25:14

herramientas para hacerlos más fáciles y

25:16

accesibles. Y un ejemplo brutal de todo

25:18

esto es el último modelo del que te voy

25:20

a hablar hoy, Bernini, una contribución

25:22

de Bite Dens, sí, los que han creado

25:24

Sens 2, construidas sobre la base del

25:27

modelo open source de Alibaba One 2.2 y

25:29

que permite hacer lo mismo que promete

25:31

OVNI de Google, editar vídeos. Y en este

25:33

caso, lo mejor será acudir a la página

25:35

web de su GitHub para ver algunos

25:36

ejemplos de lo que este modelo puede

25:38

hacer. Nada más entrar, nos encontramos

25:40

con este vídeo de presentación donde

25:42

podemos ver ejemplos como este, añadir

25:45

elementos, cambiar el estado de ánimo

25:48

de, por ejemplo, un personaje, cambiar

25:50

el estilo o incluso cambiar el punto de

25:53

vista.

25:54

Podemos ver como también es una muy

25:56

buena herramienta para eliminar

25:57

elementos de un vídeo, en este caso un

26:00

personaje o en este otro caso uno de los

26:02

dos astronautas. Aquí vamos a ver cómo

26:05

simplemente desaparece uno de ellos y

26:07

también nos permite hacer cosas más

26:09

curiosas, como por ejemplo cambiar el

26:11

punto de foco de un vídeo. De aquí hemos

26:13

pasado de la taza a la radio. El

26:16

concepto, como os digo, es muy similar

26:18

al de OVNI de Google, es decir, tener un

26:20

modelo que sea muy bueno preservando los

26:23

elementos que nosotros queremos de un

26:24

vídeo y editando el resto. Y si visitáis

26:27

su GitHub, podréis ver un montón de

26:28

ejemplos más. ejemplos donde añaden

26:31

personajes, ejemplos donde cambian la

26:33

perspectiva, ejemplos donde cambian el

26:36

clima, la iluminación y en general pues

26:38

podréis ver todas las capacidades de

26:41

este modelo que realmente pinta muy pero

26:43

que muy bien. Y es que no solo permite

26:45

editar los vídeos directamente, sino que

26:47

también permite editarlo a partir de

26:49

referencias. Por ejemplo, añadir un

26:51

elemento a un vídeo a partir de una

26:53

imagen de referencia o sustituir un

26:56

elemento de un vídeo también a partir de

26:57

una imagen de referencia. Aquí podéis

27:00

ver más ejemplos. Echadle un vistazo

27:02

porque realmente es muy pero que muy

27:04

curioso. Y cada semana aparecen

27:05

versiones más ligeras, mejoras,

27:07

variaciones, tutoriales de todos estos

27:09

modelos. El open source es una máquina

27:11

que se retroalimenta continuamente.

27:13

Esta es la gran paradoja. Cada mes que

27:16

pagas una suscripción de inteligencia

27:17

artificial, también estás financiando la

27:19

investigación que produce el modelo que

27:21

alguien compartirá gratis el año que

27:22

viene. Por lo que da igual si hoy los

27:25

modelos que puedes ejecutar en tu PC aún

27:27

no son perfectos, aunque ya sean muy

27:29

útiles. Lo que importa es si estarás

27:31

preparado cuando lo sean. Y es que esto

27:33

es algo que conozco bien. Déjame

27:35

contarte mi historia. [música]

27:39

Antes de que existiera Chat GPT, yo ya

27:41

hacía vídeos sobre cómo ejecutar

27:42

inteligencia artificial en tu PC. Stable

27:45

Diffusion, Whisper, Automatic 1111. Mira

27:48

las fechas. Esto es de hace más de 3

27:51

años, cuando prácticamente nadie hablaba

27:53

de inteligencia artificial, al menos no

27:55

como se habla ahora. Entonces llegó Chat

27:57

GPT. Este fue el primer vídeo del canal

28:00

dedicado a Chat GPT. Mira justo el vídeo

28:02

anterior mostrándote mi PC para ejecutar

28:05

stable diffusion, pero lo dicho, llegó

28:07

Chat GPT y todo el interés se fue a la

28:09

nube. Las herramientas online gratuitas

28:11

que evolucionaron al pago de

28:12

suscripciones concentraron todo el

28:14

interés y la inteligencia artificial en

28:16

local pasó definitivamente a ser cosa de

28:18

cuatro frikis orgullosos y motivados con

28:20

GPUs caras. Bueno, siempre lo había

28:23

sido. 3 años después, la inteligencia

28:25

artificial en local ha vuelto con

28:27

fuerza, pero cada vez se parece menos a

28:30

lo que yo enseñaba. Lo que hacía en 2022

28:32

con Stable Difusion era artesanal,

28:34

lento, limitado, era muy curioso, pero

28:38

siendo sinceros, poco útil. Lo que acabo

28:40

de enseñarte hoy. Ideogram generando en

28:42

2K con control total sobre la

28:44

composición, gema procesando texto,

28:46

imagen y audio en tu portátil, Nemotron

28:48

compitiendo con GPT 5.5 es otra cosa que

28:51

se percibe muy diferente. La

28:53

inteligencia artificial en local es ya

28:55

una realidad, pero una realidad

28:57

incipiente. Los que me hicieron caso

28:59

hace 3 años y empezaron a tocar modelos

29:01

locales cuando nadie lo hacía, hoy

29:03

entienden cómo funciona esa tecnología.

29:05

Saben elegir un modelo, tienen intuición

29:07

y esa ventaja no se la dio ninguna

29:09

suscripción, se la dio el tiempo, tiempo

29:12

que ya no recuperan los que no

29:13

empezaron. Mi predicción es que los que

29:15

empiecen ahora van a tener en 2 años un

29:17

sistema propio adaptado a su trabajo que

29:20

funcionará sin depender de nadie y esto

29:22

llamará la atención de muchas empresas.

29:24

Los que esperen van a empezar desde cero

29:26

y como pasó con Chat GPT y el uso de la

29:28

inteligencia artificial en general

29:30

estarán desubicados y perdidos.

29:32

dependerán de los otros. Y la distancia

29:34

entre estos dos grupos no será de

29:35

dinero. La distancia real la marcará el

29:38

tiempo, la práctica y el conocimiento.

29:41

Si quieres empezar y no sabes por dónde,

29:43

en este vídeo te enseñé paso a paso cómo

29:45

instalar y ejecutar modelos en tu

29:47

ordenador.

Interactive Summary

Ask follow-up questions or revisit key timestamps.

Este video analiza cómo la inteligencia artificial "open source" está compitiendo directamente con los modelos de pago (como GPT, Claude o Gemini) y por qué ejecutar modelos de IA de forma local se está convirtiendo en una opción cada vez más viable, eficiente y privada. Se presentan herramientas como Ideogram 4 para generación de imágenes, el nuevo modelo Gema 4 de Google y otros ejemplos de la industria, argumentando que el futuro de la productividad personal reside en construir sistemas propios y autónomos en lugar de depender exclusivamente de suscripciones en la nube.

Recently Distilled

Videos recently processed by our community