ChatGPT ha ROTO la REALIDAD. ¡Ya no puedes creer lo que ves!

Watch on YouTube

Now Playing

Transcript

623 segments

0:00

Open lo ha conseguido. Ya no puedes

0:02

fiarte de tus ojos para distinguir qué

0:04

es real y que no lo es. No me crees.

0:07

Mira esto. Esta es la captura de

0:09

pantalla de un canal de YouTube que te

0:10

enseña a adiestrar caracoles. Pero si

0:12

quieres aprender a hacerlo, tengo una

0:14

mala noticia para ti. Este canal no

0:16

existe. Esta captura de pantalla ha

0:19

generado el último modelo de generación

0:20

de imágenes de Open AI. Y como puedes

0:22

ver, es alucinante tanto por la

0:24

fidelidad con la que recrea la interfaz

0:26

YouTube como por la cantidad de textos

0:28

que ha renderizado, como por la calidad

0:30

de las diferentes imágenes que integran

0:32

esta captura. De este modo podemos leer

0:34

perfectamente el texto del banner

0:36

principal, adiestramiento de caracoles,

0:38

su subtítulo, Paciencia, constancia,

0:40

muluscos extraordinarios, pero también

0:42

textos mucho más pequeños y sutiles de

0:44

su interfaz, como por ejemplo la

0:46

descripción, el primer canal dedicado al

0:48

adiestramiento de caracoles, técnicas,

0:49

consejos y entrenamiento, así como las

0:52

diferentes pestañas, inicio, vídeos,

0:54

shorts, listas, comunidad, los textos de

0:56

los ths, el aro, primeros pasos, subir

0:58

al podio, así como los títulos. Todos y

1:01

cada uno de los detalles encajan

1:03

perfectamente, da completamente el pego

1:06

y la calidad de los diferentes thoils

1:08

también es realmente buena y

1:09

perfectamente coherente. Como os decía,

1:13

esto lo he generado en Chat GPT con un

1:15

prom realmente muy pero que muy

1:17

sencillo. Simplemente le he pedido esto.

1:20

Crea un screenshot de la página

1:21

principal de un canal de YouTube donde

1:23

se vean correctamente las diferentes

1:24

secciones con los correspondientes

1:26

vídeos para un canal de asistento de

1:28

caracoles. Y el resultado que ha

1:30

generado es este que habéis visto. Y no

1:32

es lo único en lo que este modelo

1:34

destaca. Fijaros en esta conversación.

1:36

Le he proporcionado dos fotografías

1:37

mías, una frontal y otra de perfil. Y le

1:40

he pedido que generase otras imágenes,

1:43

por ejemplo, esta de aquí, donde le pido

1:45

que me genere con expresión de sorpresa

1:47

y las manos en la cabeza vistiendo un

1:49

jersei colorido de rayas. Y este es el

1:53

resultado, claramente el mejor resultado

1:55

que he conseguido con ningún modelo, sin

1:57

necesidad de entrenar ningún lora ni

1:59

nada parecido. Este sería un primer

2:01

resultado y este sería un segundo

2:04

resultado. Este me parece claramente

2:06

mejor, pero ambos resultados son mejores

2:09

que lo que podemos conseguir con

2:10

Nanobanana, que nos permite generar

2:13

imágenes como estas de aquí, donde el

2:16

parecido es notable, pero claramente por

2:19

debajo de lo que conseguimos con este

2:21

modelo de Open AI. Y aquí es donde se

2:24

abre el debate. El modelo de Open AI es

2:26

superior a Nono Banana. Y esto es lo que

2:29

vamos a descubrir hoy, porque tengo

2:30

preparada una comparativa en

2:32

profundidad. Pero antes de pasar a mi

2:34

comparativa, merece mucho la pena ver

2:35

cómo Open ha presentado este modelo,

2:37

porque lo ha hecho de un modo

2:38

inmejorable, con una entrada de blog

2:40

donde hay mucho que leer, pero donde no

2:42

hay ni una sola línea de texto. Todos

2:45

son imágenes generadas con este modelo,

2:47

el Chat GPT Image 2.0. Y si bien

2:50

podríamos ir leyendo el texto que

2:52

aparece en las imágenes, creo que lo

2:53

mejor es ir haciendo scroll e ir viendo

2:55

ejemplos. Ejemplos como este de aquí

2:57

donde se ven múltiples interfaces

2:59

perfectamente recreadas con texto

3:00

renderizado, o este otro que es un

3:02

diseño estilo collage perfectamente

3:05

funcional o este otro de aquí, una

3:07

imagen fotorrealista en este caso de un

3:09

puñado de arroz o esta otra, un diseño

3:11

editorial perfectamente renderizado.

3:14

Incluso podemos ver cómo es capaz de

3:15

recrear texto manuscrito. Y si seguimos

3:18

bajando, entramos en la parte

3:19

multilingüe, cómo es capaz de trabajar

3:22

en múltiples idiomas, tanto en ese

3:23

ejemplo de la página de cómic como en

3:26

esta otra fotografía, donde vemos

3:27

portadas de libros escritas en

3:29

diferentes idiomas y abecedarios. Y si

3:32

bajamos un poco más, encontramos esta

3:34

imagen, que es el ejemplo perfecto de

3:35

esta capacidad, donde vemos en la parte

3:38

central una gran cantidad de texto

3:40

renderizado en diferentes idiomas y en

3:41

la esquina inferior izquierda vemos el

3:44

texto en español que está perfectamente

3:46

escrito. Wushi, la perla del lago Taiu,

3:49

está ubicada en el sur de Yangu. Tiene

3:51

una larga historia y una cultura rica,

3:54

por lo que asumo que el resto de textos

3:55

también se han renderizado

3:57

correctamente. Y si seguimos bajando,

3:59

vemos algunos ejemplos más de

4:01

tipografía, tal y como podéis ver, pero

4:04

llegamos a los ejemplos de fotografías y

4:06

podemos ver cómo es capaz de recrear

4:08

fotografías hechas con un móvil, también

4:11

fotografías de un estilo más

4:13

profesional. De hecho, creo que estas

4:14

son más sencillas de hacer que las

4:16

fotografías que parecen caseras. Podemos

4:18

ver como dentro de este tipo de imágenes

4:20

puede renderizar texto incluso en

4:22

perspectiva. Podemos seguir bajando y lo

4:25

que también veremos es cómo es capaz de

4:27

generar imágenes tipo diseño gráfico,

4:29

cómo es capaz de diseñar, por ejemplo,

4:32

pósters y carteles de cine, cómo es

4:34

capaz de hacer piñetas de cómic, cómo es

4:37

capaz de explicar historias. Y esto es

4:40

muy interesante porque ahora ya no solo

4:41

podemos hacer que chat GPT nos escriba

4:43

una pequeña historia, sino que podemos

4:45

dirigirlo para que nos cree, por

4:46

ejemplo, un cómic, cómo es capaz de

4:49

crear fichas de personaje realmente muy

4:51

extensas donde podemos ver sus

4:53

diferentes vistas, diferentes

4:54

expresiones y cómo incluye la

4:57

explicación de cómo es este personaje,

5:00

cómo es capaz de manipular diferentes

5:01

elementos para que cumplan otra función,

5:03

en este caso utilizar alimentos como

5:06

tipografía.

5:08

Y si seguimos bajando, podemos ver

5:10

también elementos interesantes como

5:12

este, donde vemos como no solo puede

5:13

recrear las diferentes vistas de un

5:15

personaje, sino que también puede

5:16

recrear las diferentes poses clave de

5:19

una animación. Y si seguimos bajando,

5:22

podemos ver más ejemplos en diferentes

5:25

estilos que realmente funcionan muy

5:28

bien, incluso en formatos realmente muy

5:30

verticales. Y no solo esto, también es

5:33

capaz de generar imágenes que expliquen

5:35

conceptos, por ejemplo, en este caso,

5:37

matemáticos.

5:39

Estamos ante un modelo realmente muy,

5:41

pero que muy potente y la única duda es

5:44

comprobar si realmente funciona tan bien

5:46

como en todos estos ejemplos que os

5:48

estoy mostrando. Por lo que a

5:49

continuación vamos a ver lo que he

5:51

podido generar y lo vamos a comparar con

5:53

nanobanana. Y antes de pasar a la

5:55

comparativa, un apunte muy importante.

5:57

En Chat GPT no puedes conseguir la

5:59

máxima calidad que te da este modelo.

6:01

Para conseguirla debes recurrir a

6:03

herramientas como Freep, que ya ha

6:04

incorporado este modelo y nos permite

6:06

trabajar con él a máxima calidad.

6:08

De hecho, si nos vamos a los selectores

6:10

de modelos, podemos ver como en Freepic

6:11

tenemos disponibles 42 modelos. Y si

6:14

bajamos a la sección donde están los

6:15

modelos de Open AI, podemos ver que ya

6:17

está disponible el modelo GPT2 y como os

6:21

decía, lo podemos utilizar para generar

6:23

a máxima calidad. Este es un ejemplo de

6:25

ello. Una imagen generada 1024 por 1024

6:28

con GPT2 en calidad alta. Y como podéis

6:31

ver, todas estas versiones de mí mismo

6:33

con los diferentes outfits se parecen a

6:35

mí. Cuando quieres generar una imagen

6:38

como esta en ChatGPT, el resultado no es

6:41

el mismo. Y es que en ChatGPT obtenemos

6:43

un resultado como este, un resultado

6:45

donde el parecido es razonable, pero ni

6:48

de cerca es tan bueno como el que

6:49

obtenemos cuando trabajamos con el

6:51

modelo trabajando a máxima calidad. Por

6:53

lo que Freep, que patrocino el vídeo de

6:55

hoy, es una excelente herramienta si

6:57

eres un profesional creativo, ya que te

6:58

permite acceder a los últimos modelos

7:00

disponibles. Como podéis ver, GPT2 ya

7:02

está disponible para generar imágenes y

7:04

además te da un amplio abanico también

7:06

para generar vídeo. De hecho, si nos

7:08

vamos a la generación de vídeo y vamos a

7:10

ver todos los modelos, podemos ver que

7:12

están disponibles los mejores modelos

7:13

del mercado. está disponible Sidens 2,

7:16

Cling 3, Grock y además hay modelos que

7:20

podemos utilizar de modo ilimitado como

7:22

con modelo Clean 2.5. ¿Cómo lo podemos

7:26

utilizar de modo ilimitado? Pues

7:27

contratando su plan Premium Plus. Y es

7:29

que si contratamos su plan Premium Plus,

7:32

podemos ver como ciertos modelos los

7:33

podemos utilizar de modo ilimitado.

7:35

Podemos utilizar modelos de generación

7:36

de imágenes como el nana banana 2, que

7:38

nos permite generar imágenes limitadas a

7:40

1K o en el caso de generar vídeo podemos

7:43

generar vídeo con el modelo Clean 2.5,

7:45

que es un modelo que utilizo

7:46

habitualmente en mis vídeos y que

7:48

realmente funciona muy pero que muy

7:50

bien. Por lo que si necesitas generar

7:51

imágenes o vídeo habitualmente, Freepak

7:53

es una excelente opción, tanto por

7:55

calidad como por precio. encontrarás

7:58

toda la información en el enlace de la

8:00

descripción. Y ahora sí, vamos allá con

8:02

la comparativa entre los dos mejores

8:04

modelos de generación de imágenes

8:05

disponibles a día de hoy. Nano Banana

8:07

versus este Chat GPT Image 2.0. El

8:10

primer caso de uso que he puesto a

8:11

prueba os lo he mostrado al principio

8:12

del vídeo, su capacidad para generar

8:14

imágenes de personas a partir de

8:16

fotografías de referencia. Y en este

8:18

caso, como ya os he dicho, creo que el

8:20

modelo de Open AI gana claramente. Esta

8:23

es una imagen generada por el modelo de

8:25

Openai y esta es la misma imagen

8:28

generada por Gémini. Y he hecho otro

8:30

experimento haciendo referencia al

8:32

estilo de un fotógrafo famoso, como es

8:34

el caso de Breson. Y el resultado que he

8:36

obtenido con el modelo de Open AI es

8:38

este de aquí, que me parece realmente

8:40

muy pero que muy bueno y que también es

8:42

claramente superior a lo que generó Nano

8:45

Banana, por lo que a la hora de trabajar

8:47

con referencias de personas, el modelo

8:50

de Open se maneja mucho mejor. Pero esta

8:52

no es la única prueba que he hecho, por

8:54

lo que seguimos. Y la segunda prueba que

8:56

he hecho es para constatar su capacidad

8:58

para recrear interfaces, capturas de

9:00

pantalla y texto dentro de imágenes. Le

9:03

he pedido que generase esta imagen de el

9:06

sistema operativo de MAC con una página

9:08

web abierta y el resultado, como podéis

9:10

ver, es simplemente perfecto. Nanobanana

9:13

no lo hace mal, pero otra vez diría que

9:16

el resultado es inferior. La recreación

9:18

del sistema operativo parece bastante

9:20

pertinente, pero cuando veo la imagen de

9:23

OpenI me parece prácticamente una

9:25

captura de pantalla real. Y en el caso

9:28

de la imagen que ha generado Nano

9:30

Banana, creo que hay detalles que no se

9:31

corresponden 100% al Look de Mac, por lo

9:35

que en este caso podemos decir que

9:37

vuelve a ganar el modelo de Open ahí. E

9:39

incluso he ido un poco un paso más allá.

9:42

Le he pedido que este tipo de imágenes

9:43

me las recreup,

9:46

que este era un tipo de trabajo que

9:48

hacíamos muy a menudo hace unos años

9:50

donde pues creábamos ese tipo de

9:52

imágenes, cre diseñábamos una página web

9:54

y la teníamos que contextualizar y la

9:56

verdad es que el modelo de OpenI también

9:58

hace un trabajo excelente. La verdad es

10:01

que la Novanana también es perfectamente

10:03

funcional para hacer este tipo de

10:04

imágenes y el resultado que obtenemos

10:05

con él es algo como este. Pero las

10:08

imágenes pues lcen como más saturadas y

10:10

hay alguna aspecto en la textura que me

10:12

parece menos realista. Aquí no sabría

10:15

exactamente cómo decirlo, pero me parece

10:17

menos realista que el resultado que

10:18

obtenemos con el modelo de Openi. Por lo

10:21

que en este segundo caso de uso diría

10:24

que también gana el nuevo Chat GPT Image

10:26

2.0. Y por cómo ha empezado esto,

10:28

seguramente estaréis pensando que el

10:29

modelo de Open AI va a ganar por

10:31

goleada, pero no. Hay algunos casos de

10:33

uso donde Nanobanana aún rinde mejor.

10:36

Por ejemplo, le he pasado esta imagen de

10:39

una planta de un piso y le he pedido a

10:41

ambos modelos que la rendericen en una

10:43

vista pues tridimensional. Y lo que ha

10:46

hecho OpenI en este caso es algo peor

10:48

que lo que ha hecho el modelo de

10:50

nanobanana. ¿Por qué? Porque fijaros, me

10:53

ha hecho esta imagen, que de hecho

10:54

respeta muy bien la estructura del plano

10:56

original, pero hay detalles que los ha

10:57

alucinado. Por ejemplo, la barra de la

11:00

cocina, pues está separada de la mesa

11:03

con estos taburetes y luego la mesa para

11:05

comer. Y si os fijáis en el plano

11:07

original estaban pues juntas,

11:10

perfectamente pegadas. También ha

11:13

alucinado como un recobeco en la barra

11:16

de la cocina que no debería existir. Y

11:18

en general, si nos vamos fijando en

11:20

detallitos, pues vemos cómo ha decidido

11:23

pues reinterpretar algunos elementos.

11:25

Por ejemplo, la cama tampoco es igual.

11:29

El lavabo también tiene algún detallito

11:31

que no se corresponde con cómo está

11:33

diseñado en el plano y en cambio, en

11:35

este caso, el modelo de Google lo ha

11:38

hecho sensiblemente mejor y se ha

11:40

limitado a renderizarlo casi todo tal

11:42

cual está. No es perfecto tampoco, pero

11:45

por ejemplo los detalles que os he

11:46

mostrado antes los ha hecho mejor. Sí

11:48

que es verdad que al ser una habistación

11:50

y tal ha cometido algunos errores de

11:52

razonamiento, de interpretación, por

11:53

ejemplo, levantando esta pared aquí en

11:56

la cocina que ha considerado que estaba

11:58

separada y que no era una cocina

11:59

abierta, que aquí podemos ver que según

12:01

el plano debería haber sido una cocina

12:03

abierta, pero a la hora de representar

12:05

eh en su sitio cada uno de los

12:07

elementos, pues el modelo de Google ha

12:09

sido más estricto.

12:11

Seguimos con otro caso de uso. ¿Cuál de

12:13

los dos es mejor a la hora de convertir,

12:16

por ejemplo, una ilustración en la

12:18

fotografía que podría haber inspirado

12:20

esta ilustración? Pues bien, el

12:23

resultado que obtenemos con el modelo de

12:25

OpenI es este de aquí, que es un

12:28

resultado realmente muy pero que muy

12:30

bueno, donde pese a que la ilustración

12:32

tiene unas proporciones imposibles, como

12:35

podéis ver la cabeza es realmente muy

12:37

grande, las piernas también son como un

12:40

poco cortas y por lo tanto si lo que

12:42

queremos es recrear la fotografía que

12:45

inspiró esta imagen, pues tenemos que

12:47

recrear una imagen donde la niña tenga

12:50

unas proporciones normales.

12:52

Pues bien, en este caso, el resultado

12:55

que nos ha dado Chat GPT me parece

12:57

claramente superior también al que nos

12:59

dio Nano Banana. Fijaros, esta es la

13:02

misma imagen de referencia. Y cuando nos

13:04

vamos a la imagen que ha generado para

13:06

crear la fotografía que la inspiró, como

13:08

podéis ver, nos ha generado una niña con

13:10

un brazo muy largo, con una cabeza muy

13:12

grande, con unas piernas muy cortas, por

13:15

lo que en este ejemplo vuelve a ganar

13:18

claramente el moment el modelo de OpenI.

13:21

Y ahora vamos al siguiente ejemplo donde

13:23

quiero constatar cuál de los dos es

13:24

mejor a la hora de generar imágenes que

13:26

transmitan información, esencialmente

13:28

infografías. Pues bien, en el primer

13:30

ejemplo, además de darle un prom, le he

13:31

pasado dos imágenes de referencia, esta

13:35

y esta, y le he pedido que las incluya

13:37

dentro de la infografía final, que lo

13:39

que tiene que hacer, pues es explicar eh

13:41

stonehedge. Pues bien, el resultado que

13:44

hemos conseguido es un resultado como

13:46

este y la verdad es que es un resultado

13:49

muy pero que muy bueno, al menos a nivel

13:52

visual, a nivel de cómo ha ido marcando

13:54

los diferentes elementos. Habría que ver

13:57

si es correcto al 100%, pero al menos sí

13:59

que es verdad que ha renderizado muy

14:01

bien los textos, que ha introducido

14:03

bastante texto, que ha introducido una

14:06

cronología y que por la vista entra. Si

14:09

esto me lo encuentro en una revista tipo

14:10

National Geographic, pues creo que me

14:12

colaría bastante bien. ¿Qué tal lo hizo

14:15

Nano Banana? Pues la verdad es que en

14:16

esto ya sabemos que noana también es muy

14:18

muy bueno, pero la verdad es que el

14:20

resultado en este caso pues no me

14:22

convence tanto como lo que ha hecho

14:24

Opení, es decir, visualmente es bastante

14:27

más feo. Sí que renderizó bastante bien

14:30

prácticamente todo el texto. Creo que no

14:31

hay errores de bulto, pero sí que es

14:34

verdad que a nivel visual, a nivel de

14:37

decisiones de diseño, como estas letras

14:38

en vertical, pues el resultado me parece

14:41

inferior también al del nuevo modelo de

14:43

Openi. Y ahora vamos con un segundo

14:45

ejemplo de esta categoría, donde la

14:47

verdad el veredicto no lo tengo tan

14:49

claro. En este caso, mejor que me dejéis

14:51

en los comentarios y me ayudéis a decir

14:52

un poco. Y es que los dos lo hicieron

14:54

muy bien. Aquí digamos que quise rizar

14:57

un poco el rizo con el tipo de

14:59

infografía que quería que me generase y

15:01

lo que le pedí es que me generase una

15:02

infografía del ciclo del agua, que

15:04

explicase el ciclo del agua como una

15:06

fotografía a una maqueta hecha por niños

15:09

y anotada con texto escrito con

15:11

tipografía manual. Y la verdad es que lo

15:15

que ha generado el modelo de Open AI se

15:17

ajusta perfectamente a la instrucción

15:20

que le he pedido. Tenemos una maqueta y

15:22

la tenemos anotada con tipografía manual

15:25

y la explica perfectamente el ciclo del

15:28

agua. El modelo de Open también ha hecho

15:30

un trabajo muy bueno, pero la verdad es

15:33

que si tenemos en cuenta que yo le he

15:34

pedido que generase una maqueta hecha

15:37

por niños con elementos de papel y otros

15:39

elementos caseros como materiales

15:41

reciclados, pues la verdad es que la

15:43

maqueta del modelo de Open AI me parece

15:46

bastante más ajustada a esta

15:49

instrucción. Luego las anotaciones no

15:51

están en tipografía, no están como

15:53

hechas encima de la imagen, me las ha

15:54

puesto directamente como postit, pero

15:57

diría que en general se ha adecuado

15:59

mejor a la instrucción, en este caso, el

16:01

modelo de Google que el de Open la

16:03

verdad es que esta es una imagen

16:06

estéticamente mejor, pero es que en este

16:08

caso no le he pedido que me generase una

16:10

maqueta bonita, le he pedido que me

16:12

generase una maqueta que hubiesen podido

16:14

hacer niños y en este caso pues esta me

16:17

parece que se ajusta mejor. Bueno, como

16:19

os digo, aquí no tengo ganador claro,

16:20

por lo que si en los comentarios me

16:22

ayudáis a decir cuál de las dos es

16:24

mejor, pues ideal. Y este último ejemplo

16:26

me ha hecho reflexionar sobre una

16:27

característica fundamental de cualquier

16:29

modelo, no solo de los modelos que

16:31

generan imágenes, cómo es su capacidad

16:32

para adecuarse al prom, por lo que me he

16:35

propuesto hacer un experimento que

16:36

consistía en pedirle algo extraño al

16:39

modelo. ¿Cómo era el hecho de generar

16:42

tres elementos, e ordenarlos o pedirle

16:46

que ponga números a su lado que no fuese

16:48

el orden lógico y que estos elementos

16:49

tampoco tuviesen el color característico

16:51

que deberían tener. Esencialmente lo que

16:53

le he pedido y para ir al grano es lo

16:55

siguiente. Le he pedido que me genere un

16:57

plátano azul, que es lo que el primer

16:59

elemento que tenía que aparecer a la

17:01

izquierda con el número romano dos,

17:03

justo a su lado. Le he pedido que

17:05

generase una manzana morada con el

17:08

número tres a su lado que debía aparecer

17:10

en medio, y le he pedido que generase

17:12

una naranja, no naranja, sino de color

17:16

rosa y con el número uno al lado y que

17:19

además encima de estas tres frutas

17:21

apareciese el texto Roman Fruit y que

17:24

todo esto se reflejase en una superficie

17:26

reflectante tipo espejo. Y fijaros, en

17:30

este caso el modelo de OpenI ha sido

17:32

capaz de hacerlo sin ningún tipo de

17:34

problema. Podemos ver como ha generado

17:37

el plátano azul con el dos al lado, la

17:39

manzana morada con el tres al lado, la

17:42

naranja rosa con el uno al lado, Roman

17:45

Fruid encima y cómo ha sido capaz de

17:47

reflejar esto sin ningún tipo de

17:49

problema. decir en este caso que el

17:51

modelo de Google pues también ha sido

17:53

capaz de hacerlo perfectamente, por lo

17:55

que con prom esta complejidad ambos

17:57

modelos se manejan bien, por lo que de

18:00

momento el modelo de Google solo ha

18:01

ganado en uno de los emparejamientos,

18:04

pero no se va a quedar solo a uno el

18:06

tanteo. En este ejemplo de aquí ha

18:08

vuelto a ganar el modelo de Google. Le

18:10

he pedido esencialmente que coja todos

18:12

estos elementos de esta habitación, lo

18:14

analice y me ordene la habitación. Y el

18:17

modelo de Open AI me ha generado esta

18:19

imagen de aquí donde claramente faltan

18:21

elementos y además alguno de los

18:23

elementos aparece roto. Este avión no

18:25

tiene ningún tipo de sentido. Y aquí

18:30

podéis ver los todos los elementos que

18:33

aparecían. El modo de Google obviamente

18:35

no me lo ha hecho perfecto porque hay un

18:37

montón de elementos, pero la verdad es

18:39

que la imagen resultante, pasándole

18:40

exactamente a la misma imagen, me parece

18:43

bastante más lógica y coherente. Aquí

18:46

podéis ver el resultado, por lo que en

18:48

este caso concreto ha vuelto a ganar el

18:50

modelo de Google. Y llegamos al último

18:53

ejemplo. Este ejemplo ya iba con una

18:55

instrucción que no estaba tan enfocada a

18:56

ver si era capaz de generar una imagen

18:58

respetando todos los elementos que

18:59

aparecen al prom ni la calidad de la

19:01

imagen en sí, sino en interpretar un

19:03

prom para crear una historia. Y la

19:06

verdad es que el resultado me ha

19:07

sorprendido bastante. Lo que le he

19:09

pedido es lo siguiente. Genera un cómic

19:11

de cuatro viñetas con una alta dosis de

19:13

sarcasmo y mala leche sobre el potencial

19:14

impacto de la evolución de la

19:15

inteligencia artificial de generación de

19:17

imagen y vídeo en la industria

19:18

audiovisual. El texto que aparezca debe

19:20

ser en español. El estilo debe ser de

19:23

cómic europeo de los 80. Y fijaros lo

19:26

que ha generado. Me ha generado esto. La

19:29

primera viñeta dice, "Tranquilos, la

19:30

inteligencia artificial no nos va a

19:31

quitar el trabajo. Va a hacerlo mejor,

19:33

más rápido, más barato y sin quejarse.

19:36

Aquí la ironía ya está un poco

19:37

implícita. En la segunda viñeta dice,

19:40

"Pronto cualquiera con un ordenador y la

19:42

imaginación de un pepino podrá hacer una

19:43

película épica." Bueno, se ve como un

19:46

prom y genera. Adiós. Años de estudio,

19:49

noches en vela, equipos gigantes, egos

19:51

frágiles y sueldos de Ahora

19:53

basta con pegar y generar el arte

19:54

democratizando la mediocridad también. Y

19:57

aquí en el fondo unos que dicen, "Era

20:00

bueno, pero caro." Y todos los textos

20:03

que aparecen dentro de la imagen, más

20:05

allá de los diálogos, van un poco en la

20:07

misma línea. Aquí ya hace el cine hecho

20:10

con pasión y dignidad. Presupuesto 0 €.

20:12

Resultado, ¿quién sabe? Y termina con

20:15

esto. Pero tranquilos, siempre nos

20:16

quedará el consuelo de decir con aire

20:18

superior. Yo hacía antes, yo lo hacía

20:21

antes de que fuera fácil y de que lo

20:23

hiciera cualquiera con dos neuronas y

20:25

una tarjeta gráfica. Y en el fin pone de

20:29

una época que ya olía mal. Y este

20:32

letrero al final, la inteligencia

20:33

artificial no tiene alma, pero tiene

20:34

mejor iluminación, mejor edición y no

20:36

pide vacaciones. A simple vista, cuando

20:39

lo he leído, me parecía como muy

20:41

literal, pero luego cuando le he dado

20:43

otro vistazo, realmente me parece un muy

20:45

buen resultado. ¿Mejor o peor que el de

20:47

Gémini? La verdad es que me parecen

20:49

ambos dos muy buenos resultados. El de

20:52

Gemi no es tan denso en texto y quizá en

20:55

el fondo tenga un poco menos de mala

20:57

leche, aunque el concepto me parece

20:58

quizá un poco más interesante y mejor

21:00

ejecutado. Año 2023, la IA es nuestro

21:03

copiloto. Qué útil me ahorra me ahorra

21:05

pintar fondos. Año 2025, ahora genera

21:08

todo la película entera. Yo solo le

21:10

sugiero que añada explosiones. Año 2028.

21:13

gran creador me llaman, tú ahora te

21:15

dedicas a limpiar mis ventiladores y que

21:17

al final terminamos simplemente eh

21:20

viendo contenido generado por la IA un

21:22

poco lobotomizados. El mensaje de este

21:25

quizá me parece más potente, pero la

21:27

verdad es que los diálogos y cómo ha eh

21:30

hilado las cuatro viñetas el modelo de

21:32

Open AI también me parece muy muy bueno,

21:34

por lo que aquí lo voy a dejar en un

21:36

empate. Dicho esto, ¿qué os ha parecido

21:39

esta comparativa? ¿Qué os ha parecido el

21:41

modelo? Decidme qué os parece a vosotros

21:43

si lo probáis realmente, porque ya está

21:44

disponible en chat GPT. Y yo solo

21:46

deciros que realmente me ha sorprendido,

21:49

sobre todo, la calidad y la textura de

21:51

las imágenes, porque realmente llega un

21:53

momento en que lo que estás viendo

21:55

parecen realmente imágenes reales. Creo

21:58

que ahora sí ya podemos decir que hemos

22:00

cruzado el umbral donde un modelo

22:03

disponible para todo el mundo sin

22:04

necesidad de recurrir a técnicas

22:06

complejas como loras y entrenamientos

22:08

específicos para terminar de optimizar

22:10

el modelo para crear cierto tipo de

22:12

imágenes y es capaz de crear imágenes

22:14

absolutamente indistinguibles de la

22:16

realidad. Y esto es una gran oportunidad

22:19

para muchos sectores profesionales, pero

22:21

también es una amenaza considerable a la

22:23

hora de difundir información. Dicho

22:26

esto, si quieres seguir aprendiendo

22:27

sobre generación de imagen y vídeo, te

22:29

recomiendo el siguiente vídeo y nosotros

22:31

nos vemos en el próximo vídeo.

Interactive Summary

Ask follow-up questions or revisit key timestamps.

Este video explora las nuevas capacidades del modelo de generación de imágenes de OpenAI, destacando su habilidad superior para renderizar texto coherente, crear interfaces realistas y generar imágenes a partir de fotografías de referencia sin entrenamiento adicional. El creador compara este modelo con Nano Banana a través de varios casos de uso, incluyendo la creación de infografías, recreación de planos y generación de cómics, concluyendo que aunque el modelo de OpenAI es generalmente superior en calidad visual y realismo, todavía existen áreas donde otros modelos pueden ofrecer resultados más precisos.

Recently Distilled

Videos recently processed by our community

Stanford Neuroscientist: Can’t Remember Your Dreams? Your Brain May Be Warning You!

Apr 25, 2026

by The Diary Of A CEO