HomeVideos

ChatGPT ha ROTO la REALIDAD. ¡Ya no puedes creer lo que ves!

Now Playing

ChatGPT ha ROTO la REALIDAD. ¡Ya no puedes creer lo que ves!

Transcript

623 segments

0:00

Open lo ha conseguido. Ya no puedes

0:02

fiarte de tus ojos para distinguir qué

0:04

es real y que no lo es. No me crees.

0:07

Mira esto. Esta es la captura de

0:09

pantalla de un canal de YouTube que te

0:10

enseña a adiestrar caracoles. Pero si

0:12

quieres aprender a hacerlo, tengo una

0:14

mala noticia para ti. Este canal no

0:16

existe. Esta captura de pantalla ha

0:19

generado el último modelo de generación

0:20

de imágenes de Open AI. Y como puedes

0:22

ver, es alucinante tanto por la

0:24

fidelidad con la que recrea la interfaz

0:26

YouTube como por la cantidad de textos

0:28

que ha renderizado, como por la calidad

0:30

de las diferentes imágenes que integran

0:32

esta captura. De este modo podemos leer

0:34

perfectamente el texto del banner

0:36

principal, adiestramiento de caracoles,

0:38

su subtítulo, Paciencia, constancia,

0:40

muluscos extraordinarios, pero también

0:42

textos mucho más pequeños y sutiles de

0:44

su interfaz, como por ejemplo la

0:46

descripción, el primer canal dedicado al

0:48

adiestramiento de caracoles, técnicas,

0:49

consejos y entrenamiento, así como las

0:52

diferentes pestañas, inicio, vídeos,

0:54

shorts, listas, comunidad, los textos de

0:56

los ths, el aro, primeros pasos, subir

0:58

al podio, así como los títulos. Todos y

1:01

cada uno de los detalles encajan

1:03

perfectamente, da completamente el pego

1:06

y la calidad de los diferentes thoils

1:08

también es realmente buena y

1:09

perfectamente coherente. Como os decía,

1:13

esto lo he generado en Chat GPT con un

1:15

prom realmente muy pero que muy

1:17

sencillo. Simplemente le he pedido esto.

1:20

Crea un screenshot de la página

1:21

principal de un canal de YouTube donde

1:23

se vean correctamente las diferentes

1:24

secciones con los correspondientes

1:26

vídeos para un canal de asistento de

1:28

caracoles. Y el resultado que ha

1:30

generado es este que habéis visto. Y no

1:32

es lo único en lo que este modelo

1:34

destaca. Fijaros en esta conversación.

1:36

Le he proporcionado dos fotografías

1:37

mías, una frontal y otra de perfil. Y le

1:40

he pedido que generase otras imágenes,

1:43

por ejemplo, esta de aquí, donde le pido

1:45

que me genere con expresión de sorpresa

1:47

y las manos en la cabeza vistiendo un

1:49

jersei colorido de rayas. Y este es el

1:53

resultado, claramente el mejor resultado

1:55

que he conseguido con ningún modelo, sin

1:57

necesidad de entrenar ningún lora ni

1:59

nada parecido. Este sería un primer

2:01

resultado y este sería un segundo

2:04

resultado. Este me parece claramente

2:06

mejor, pero ambos resultados son mejores

2:09

que lo que podemos conseguir con

2:10

Nanobanana, que nos permite generar

2:13

imágenes como estas de aquí, donde el

2:16

parecido es notable, pero claramente por

2:19

debajo de lo que conseguimos con este

2:21

modelo de Open AI. Y aquí es donde se

2:24

abre el debate. El modelo de Open AI es

2:26

superior a Nono Banana. Y esto es lo que

2:29

vamos a descubrir hoy, porque tengo

2:30

preparada una comparativa en

2:32

profundidad. Pero antes de pasar a mi

2:34

comparativa, merece mucho la pena ver

2:35

cómo Open ha presentado este modelo,

2:37

porque lo ha hecho de un modo

2:38

inmejorable, con una entrada de blog

2:40

donde hay mucho que leer, pero donde no

2:42

hay ni una sola línea de texto. Todos

2:45

son imágenes generadas con este modelo,

2:47

el Chat GPT Image 2.0. Y si bien

2:50

podríamos ir leyendo el texto que

2:52

aparece en las imágenes, creo que lo

2:53

mejor es ir haciendo scroll e ir viendo

2:55

ejemplos. Ejemplos como este de aquí

2:57

donde se ven múltiples interfaces

2:59

perfectamente recreadas con texto

3:00

renderizado, o este otro que es un

3:02

diseño estilo collage perfectamente

3:05

funcional o este otro de aquí, una

3:07

imagen fotorrealista en este caso de un

3:09

puñado de arroz o esta otra, un diseño

3:11

editorial perfectamente renderizado.

3:14

Incluso podemos ver cómo es capaz de

3:15

recrear texto manuscrito. Y si seguimos

3:18

bajando, entramos en la parte

3:19

multilingüe, cómo es capaz de trabajar

3:22

en múltiples idiomas, tanto en ese

3:23

ejemplo de la página de cómic como en

3:26

esta otra fotografía, donde vemos

3:27

portadas de libros escritas en

3:29

diferentes idiomas y abecedarios. Y si

3:32

bajamos un poco más, encontramos esta

3:34

imagen, que es el ejemplo perfecto de

3:35

esta capacidad, donde vemos en la parte

3:38

central una gran cantidad de texto

3:40

renderizado en diferentes idiomas y en

3:41

la esquina inferior izquierda vemos el

3:44

texto en español que está perfectamente

3:46

escrito. Wushi, la perla del lago Taiu,

3:49

está ubicada en el sur de Yangu. Tiene

3:51

una larga historia y una cultura rica,

3:54

por lo que asumo que el resto de textos

3:55

también se han renderizado

3:57

correctamente. Y si seguimos bajando,

3:59

vemos algunos ejemplos más de

4:01

tipografía, tal y como podéis ver, pero

4:04

llegamos a los ejemplos de fotografías y

4:06

podemos ver cómo es capaz de recrear

4:08

fotografías hechas con un móvil, también

4:11

fotografías de un estilo más

4:13

profesional. De hecho, creo que estas

4:14

son más sencillas de hacer que las

4:16

fotografías que parecen caseras. Podemos

4:18

ver como dentro de este tipo de imágenes

4:20

puede renderizar texto incluso en

4:22

perspectiva. Podemos seguir bajando y lo

4:25

que también veremos es cómo es capaz de

4:27

generar imágenes tipo diseño gráfico,

4:29

cómo es capaz de diseñar, por ejemplo,

4:32

pósters y carteles de cine, cómo es

4:34

capaz de hacer piñetas de cómic, cómo es

4:37

capaz de explicar historias. Y esto es

4:40

muy interesante porque ahora ya no solo

4:41

podemos hacer que chat GPT nos escriba

4:43

una pequeña historia, sino que podemos

4:45

dirigirlo para que nos cree, por

4:46

ejemplo, un cómic, cómo es capaz de

4:49

crear fichas de personaje realmente muy

4:51

extensas donde podemos ver sus

4:53

diferentes vistas, diferentes

4:54

expresiones y cómo incluye la

4:57

explicación de cómo es este personaje,

5:00

cómo es capaz de manipular diferentes

5:01

elementos para que cumplan otra función,

5:03

en este caso utilizar alimentos como

5:06

tipografía.

5:08

Y si seguimos bajando, podemos ver

5:10

también elementos interesantes como

5:12

este, donde vemos como no solo puede

5:13

recrear las diferentes vistas de un

5:15

personaje, sino que también puede

5:16

recrear las diferentes poses clave de

5:19

una animación. Y si seguimos bajando,

5:22

podemos ver más ejemplos en diferentes

5:25

estilos que realmente funcionan muy

5:28

bien, incluso en formatos realmente muy

5:30

verticales. Y no solo esto, también es

5:33

capaz de generar imágenes que expliquen

5:35

conceptos, por ejemplo, en este caso,

5:37

matemáticos.

5:39

Estamos ante un modelo realmente muy,

5:41

pero que muy potente y la única duda es

5:44

comprobar si realmente funciona tan bien

5:46

como en todos estos ejemplos que os

5:48

estoy mostrando. Por lo que a

5:49

continuación vamos a ver lo que he

5:51

podido generar y lo vamos a comparar con

5:53

nanobanana. Y antes de pasar a la

5:55

comparativa, un apunte muy importante.

5:57

En Chat GPT no puedes conseguir la

5:59

máxima calidad que te da este modelo.

6:01

Para conseguirla debes recurrir a

6:03

herramientas como Freep, que ya ha

6:04

incorporado este modelo y nos permite

6:06

trabajar con él a máxima calidad.

6:08

De hecho, si nos vamos a los selectores

6:10

de modelos, podemos ver como en Freepic

6:11

tenemos disponibles 42 modelos. Y si

6:14

bajamos a la sección donde están los

6:15

modelos de Open AI, podemos ver que ya

6:17

está disponible el modelo GPT2 y como os

6:21

decía, lo podemos utilizar para generar

6:23

a máxima calidad. Este es un ejemplo de

6:25

ello. Una imagen generada 1024 por 1024

6:28

con GPT2 en calidad alta. Y como podéis

6:31

ver, todas estas versiones de mí mismo

6:33

con los diferentes outfits se parecen a

6:35

mí. Cuando quieres generar una imagen

6:38

como esta en ChatGPT, el resultado no es

6:41

el mismo. Y es que en ChatGPT obtenemos

6:43

un resultado como este, un resultado

6:45

donde el parecido es razonable, pero ni

6:48

de cerca es tan bueno como el que

6:49

obtenemos cuando trabajamos con el

6:51

modelo trabajando a máxima calidad. Por

6:53

lo que Freep, que patrocino el vídeo de

6:55

hoy, es una excelente herramienta si

6:57

eres un profesional creativo, ya que te

6:58

permite acceder a los últimos modelos

7:00

disponibles. Como podéis ver, GPT2 ya

7:02

está disponible para generar imágenes y

7:04

además te da un amplio abanico también

7:06

para generar vídeo. De hecho, si nos

7:08

vamos a la generación de vídeo y vamos a

7:10

ver todos los modelos, podemos ver que

7:12

están disponibles los mejores modelos

7:13

del mercado. está disponible Sidens 2,

7:16

Cling 3, Grock y además hay modelos que

7:20

podemos utilizar de modo ilimitado como

7:22

con modelo Clean 2.5. ¿Cómo lo podemos

7:26

utilizar de modo ilimitado? Pues

7:27

contratando su plan Premium Plus. Y es

7:29

que si contratamos su plan Premium Plus,

7:32

podemos ver como ciertos modelos los

7:33

podemos utilizar de modo ilimitado.

7:35

Podemos utilizar modelos de generación

7:36

de imágenes como el nana banana 2, que

7:38

nos permite generar imágenes limitadas a

7:40

1K o en el caso de generar vídeo podemos

7:43

generar vídeo con el modelo Clean 2.5,

7:45

que es un modelo que utilizo

7:46

habitualmente en mis vídeos y que

7:48

realmente funciona muy pero que muy

7:50

bien. Por lo que si necesitas generar

7:51

imágenes o vídeo habitualmente, Freepak

7:53

es una excelente opción, tanto por

7:55

calidad como por precio. encontrarás

7:58

toda la información en el enlace de la

8:00

descripción. Y ahora sí, vamos allá con

8:02

la comparativa entre los dos mejores

8:04

modelos de generación de imágenes

8:05

disponibles a día de hoy. Nano Banana

8:07

versus este Chat GPT Image 2.0. El

8:10

primer caso de uso que he puesto a

8:11

prueba os lo he mostrado al principio

8:12

del vídeo, su capacidad para generar

8:14

imágenes de personas a partir de

8:16

fotografías de referencia. Y en este

8:18

caso, como ya os he dicho, creo que el

8:20

modelo de Open AI gana claramente. Esta

8:23

es una imagen generada por el modelo de

8:25

Openai y esta es la misma imagen

8:28

generada por Gémini. Y he hecho otro

8:30

experimento haciendo referencia al

8:32

estilo de un fotógrafo famoso, como es

8:34

el caso de Breson. Y el resultado que he

8:36

obtenido con el modelo de Open AI es

8:38

este de aquí, que me parece realmente

8:40

muy pero que muy bueno y que también es

8:42

claramente superior a lo que generó Nano

8:45

Banana, por lo que a la hora de trabajar

8:47

con referencias de personas, el modelo

8:50

de Open se maneja mucho mejor. Pero esta

8:52

no es la única prueba que he hecho, por

8:54

lo que seguimos. Y la segunda prueba que

8:56

he hecho es para constatar su capacidad

8:58

para recrear interfaces, capturas de

9:00

pantalla y texto dentro de imágenes. Le

9:03

he pedido que generase esta imagen de el

9:06

sistema operativo de MAC con una página

9:08

web abierta y el resultado, como podéis

9:10

ver, es simplemente perfecto. Nanobanana

9:13

no lo hace mal, pero otra vez diría que

9:16

el resultado es inferior. La recreación

9:18

del sistema operativo parece bastante

9:20

pertinente, pero cuando veo la imagen de

9:23

OpenI me parece prácticamente una

9:25

captura de pantalla real. Y en el caso

9:28

de la imagen que ha generado Nano

9:30

Banana, creo que hay detalles que no se

9:31

corresponden 100% al Look de Mac, por lo

9:35

que en este caso podemos decir que

9:37

vuelve a ganar el modelo de Open ahí. E

9:39

incluso he ido un poco un paso más allá.

9:42

Le he pedido que este tipo de imágenes

9:43

me las recreup,

9:46

que este era un tipo de trabajo que

9:48

hacíamos muy a menudo hace unos años

9:50

donde pues creábamos ese tipo de

9:52

imágenes, cre diseñábamos una página web

9:54

y la teníamos que contextualizar y la

9:56

verdad es que el modelo de OpenI también

9:58

hace un trabajo excelente. La verdad es

10:01

que la Novanana también es perfectamente

10:03

funcional para hacer este tipo de

10:04

imágenes y el resultado que obtenemos

10:05

con él es algo como este. Pero las

10:08

imágenes pues lcen como más saturadas y

10:10

hay alguna aspecto en la textura que me

10:12

parece menos realista. Aquí no sabría

10:15

exactamente cómo decirlo, pero me parece

10:17

menos realista que el resultado que

10:18

obtenemos con el modelo de Openi. Por lo

10:21

que en este segundo caso de uso diría

10:24

que también gana el nuevo Chat GPT Image

10:26

2.0. Y por cómo ha empezado esto,

10:28

seguramente estaréis pensando que el

10:29

modelo de Open AI va a ganar por

10:31

goleada, pero no. Hay algunos casos de

10:33

uso donde Nanobanana aún rinde mejor.

10:36

Por ejemplo, le he pasado esta imagen de

10:39

una planta de un piso y le he pedido a

10:41

ambos modelos que la rendericen en una

10:43

vista pues tridimensional. Y lo que ha

10:46

hecho OpenI en este caso es algo peor

10:48

que lo que ha hecho el modelo de

10:50

nanobanana. ¿Por qué? Porque fijaros, me

10:53

ha hecho esta imagen, que de hecho

10:54

respeta muy bien la estructura del plano

10:56

original, pero hay detalles que los ha

10:57

alucinado. Por ejemplo, la barra de la

11:00

cocina, pues está separada de la mesa

11:03

con estos taburetes y luego la mesa para

11:05

comer. Y si os fijáis en el plano

11:07

original estaban pues juntas,

11:10

perfectamente pegadas. También ha

11:13

alucinado como un recobeco en la barra

11:16

de la cocina que no debería existir. Y

11:18

en general, si nos vamos fijando en

11:20

detallitos, pues vemos cómo ha decidido

11:23

pues reinterpretar algunos elementos.

11:25

Por ejemplo, la cama tampoco es igual.

11:29

El lavabo también tiene algún detallito

11:31

que no se corresponde con cómo está

11:33

diseñado en el plano y en cambio, en

11:35

este caso, el modelo de Google lo ha

11:38

hecho sensiblemente mejor y se ha

11:40

limitado a renderizarlo casi todo tal

11:42

cual está. No es perfecto tampoco, pero

11:45

por ejemplo los detalles que os he

11:46

mostrado antes los ha hecho mejor. Sí

11:48

que es verdad que al ser una habistación

11:50

y tal ha cometido algunos errores de

11:52

razonamiento, de interpretación, por

11:53

ejemplo, levantando esta pared aquí en

11:56

la cocina que ha considerado que estaba

11:58

separada y que no era una cocina

11:59

abierta, que aquí podemos ver que según

12:01

el plano debería haber sido una cocina

12:03

abierta, pero a la hora de representar

12:05

eh en su sitio cada uno de los

12:07

elementos, pues el modelo de Google ha

12:09

sido más estricto.

12:11

Seguimos con otro caso de uso. ¿Cuál de

12:13

los dos es mejor a la hora de convertir,

12:16

por ejemplo, una ilustración en la

12:18

fotografía que podría haber inspirado

12:20

esta ilustración? Pues bien, el

12:23

resultado que obtenemos con el modelo de

12:25

OpenI es este de aquí, que es un

12:28

resultado realmente muy pero que muy

12:30

bueno, donde pese a que la ilustración

12:32

tiene unas proporciones imposibles, como

12:35

podéis ver la cabeza es realmente muy

12:37

grande, las piernas también son como un

12:40

poco cortas y por lo tanto si lo que

12:42

queremos es recrear la fotografía que

12:45

inspiró esta imagen, pues tenemos que

12:47

recrear una imagen donde la niña tenga

12:50

unas proporciones normales.

12:52

Pues bien, en este caso, el resultado

12:55

que nos ha dado Chat GPT me parece

12:57

claramente superior también al que nos

12:59

dio Nano Banana. Fijaros, esta es la

13:02

misma imagen de referencia. Y cuando nos

13:04

vamos a la imagen que ha generado para

13:06

crear la fotografía que la inspiró, como

13:08

podéis ver, nos ha generado una niña con

13:10

un brazo muy largo, con una cabeza muy

13:12

grande, con unas piernas muy cortas, por

13:15

lo que en este ejemplo vuelve a ganar

13:18

claramente el moment el modelo de OpenI.

13:21

Y ahora vamos al siguiente ejemplo donde

13:23

quiero constatar cuál de los dos es

13:24

mejor a la hora de generar imágenes que

13:26

transmitan información, esencialmente

13:28

infografías. Pues bien, en el primer

13:30

ejemplo, además de darle un prom, le he

13:31

pasado dos imágenes de referencia, esta

13:35

y esta, y le he pedido que las incluya

13:37

dentro de la infografía final, que lo

13:39

que tiene que hacer, pues es explicar eh

13:41

stonehedge. Pues bien, el resultado que

13:44

hemos conseguido es un resultado como

13:46

este y la verdad es que es un resultado

13:49

muy pero que muy bueno, al menos a nivel

13:52

visual, a nivel de cómo ha ido marcando

13:54

los diferentes elementos. Habría que ver

13:57

si es correcto al 100%, pero al menos sí

13:59

que es verdad que ha renderizado muy

14:01

bien los textos, que ha introducido

14:03

bastante texto, que ha introducido una

14:06

cronología y que por la vista entra. Si

14:09

esto me lo encuentro en una revista tipo

14:10

National Geographic, pues creo que me

14:12

colaría bastante bien. ¿Qué tal lo hizo

14:15

Nano Banana? Pues la verdad es que en

14:16

esto ya sabemos que noana también es muy

14:18

muy bueno, pero la verdad es que el

14:20

resultado en este caso pues no me

14:22

convence tanto como lo que ha hecho

14:24

Opení, es decir, visualmente es bastante

14:27

más feo. Sí que renderizó bastante bien

14:30

prácticamente todo el texto. Creo que no

14:31

hay errores de bulto, pero sí que es

14:34

verdad que a nivel visual, a nivel de

14:37

decisiones de diseño, como estas letras

14:38

en vertical, pues el resultado me parece

14:41

inferior también al del nuevo modelo de

14:43

Openi. Y ahora vamos con un segundo

14:45

ejemplo de esta categoría, donde la

14:47

verdad el veredicto no lo tengo tan

14:49

claro. En este caso, mejor que me dejéis

14:51

en los comentarios y me ayudéis a decir

14:52

un poco. Y es que los dos lo hicieron

14:54

muy bien. Aquí digamos que quise rizar

14:57

un poco el rizo con el tipo de

14:59

infografía que quería que me generase y

15:01

lo que le pedí es que me generase una

15:02

infografía del ciclo del agua, que

15:04

explicase el ciclo del agua como una

15:06

fotografía a una maqueta hecha por niños

15:09

y anotada con texto escrito con

15:11

tipografía manual. Y la verdad es que lo

15:15

que ha generado el modelo de Open AI se

15:17

ajusta perfectamente a la instrucción

15:20

que le he pedido. Tenemos una maqueta y

15:22

la tenemos anotada con tipografía manual

15:25

y la explica perfectamente el ciclo del

15:28

agua. El modelo de Open también ha hecho

15:30

un trabajo muy bueno, pero la verdad es

15:33

que si tenemos en cuenta que yo le he

15:34

pedido que generase una maqueta hecha

15:37

por niños con elementos de papel y otros

15:39

elementos caseros como materiales

15:41

reciclados, pues la verdad es que la

15:43

maqueta del modelo de Open AI me parece

15:46

bastante más ajustada a esta

15:49

instrucción. Luego las anotaciones no

15:51

están en tipografía, no están como

15:53

hechas encima de la imagen, me las ha

15:54

puesto directamente como postit, pero

15:57

diría que en general se ha adecuado

15:59

mejor a la instrucción, en este caso, el

16:01

modelo de Google que el de Open la

16:03

verdad es que esta es una imagen

16:06

estéticamente mejor, pero es que en este

16:08

caso no le he pedido que me generase una

16:10

maqueta bonita, le he pedido que me

16:12

generase una maqueta que hubiesen podido

16:14

hacer niños y en este caso pues esta me

16:17

parece que se ajusta mejor. Bueno, como

16:19

os digo, aquí no tengo ganador claro,

16:20

por lo que si en los comentarios me

16:22

ayudáis a decir cuál de las dos es

16:24

mejor, pues ideal. Y este último ejemplo

16:26

me ha hecho reflexionar sobre una

16:27

característica fundamental de cualquier

16:29

modelo, no solo de los modelos que

16:31

generan imágenes, cómo es su capacidad

16:32

para adecuarse al prom, por lo que me he

16:35

propuesto hacer un experimento que

16:36

consistía en pedirle algo extraño al

16:39

modelo. ¿Cómo era el hecho de generar

16:42

tres elementos, e ordenarlos o pedirle

16:46

que ponga números a su lado que no fuese

16:48

el orden lógico y que estos elementos

16:49

tampoco tuviesen el color característico

16:51

que deberían tener. Esencialmente lo que

16:53

le he pedido y para ir al grano es lo

16:55

siguiente. Le he pedido que me genere un

16:57

plátano azul, que es lo que el primer

16:59

elemento que tenía que aparecer a la

17:01

izquierda con el número romano dos,

17:03

justo a su lado. Le he pedido que

17:05

generase una manzana morada con el

17:08

número tres a su lado que debía aparecer

17:10

en medio, y le he pedido que generase

17:12

una naranja, no naranja, sino de color

17:16

rosa y con el número uno al lado y que

17:19

además encima de estas tres frutas

17:21

apareciese el texto Roman Fruit y que

17:24

todo esto se reflejase en una superficie

17:26

reflectante tipo espejo. Y fijaros, en

17:30

este caso el modelo de OpenI ha sido

17:32

capaz de hacerlo sin ningún tipo de

17:34

problema. Podemos ver como ha generado

17:37

el plátano azul con el dos al lado, la

17:39

manzana morada con el tres al lado, la

17:42

naranja rosa con el uno al lado, Roman

17:45

Fruid encima y cómo ha sido capaz de

17:47

reflejar esto sin ningún tipo de

17:49

problema. decir en este caso que el

17:51

modelo de Google pues también ha sido

17:53

capaz de hacerlo perfectamente, por lo

17:55

que con prom esta complejidad ambos

17:57

modelos se manejan bien, por lo que de

18:00

momento el modelo de Google solo ha

18:01

ganado en uno de los emparejamientos,

18:04

pero no se va a quedar solo a uno el

18:06

tanteo. En este ejemplo de aquí ha

18:08

vuelto a ganar el modelo de Google. Le

18:10

he pedido esencialmente que coja todos

18:12

estos elementos de esta habitación, lo

18:14

analice y me ordene la habitación. Y el

18:17

modelo de Open AI me ha generado esta

18:19

imagen de aquí donde claramente faltan

18:21

elementos y además alguno de los

18:23

elementos aparece roto. Este avión no

18:25

tiene ningún tipo de sentido. Y aquí

18:30

podéis ver los todos los elementos que

18:33

aparecían. El modo de Google obviamente

18:35

no me lo ha hecho perfecto porque hay un

18:37

montón de elementos, pero la verdad es

18:39

que la imagen resultante, pasándole

18:40

exactamente a la misma imagen, me parece

18:43

bastante más lógica y coherente. Aquí

18:46

podéis ver el resultado, por lo que en

18:48

este caso concreto ha vuelto a ganar el

18:50

modelo de Google. Y llegamos al último

18:53

ejemplo. Este ejemplo ya iba con una

18:55

instrucción que no estaba tan enfocada a

18:56

ver si era capaz de generar una imagen

18:58

respetando todos los elementos que

18:59

aparecen al prom ni la calidad de la

19:01

imagen en sí, sino en interpretar un

19:03

prom para crear una historia. Y la

19:06

verdad es que el resultado me ha

19:07

sorprendido bastante. Lo que le he

19:09

pedido es lo siguiente. Genera un cómic

19:11

de cuatro viñetas con una alta dosis de

19:13

sarcasmo y mala leche sobre el potencial

19:14

impacto de la evolución de la

19:15

inteligencia artificial de generación de

19:17

imagen y vídeo en la industria

19:18

audiovisual. El texto que aparezca debe

19:20

ser en español. El estilo debe ser de

19:23

cómic europeo de los 80. Y fijaros lo

19:26

que ha generado. Me ha generado esto. La

19:29

primera viñeta dice, "Tranquilos, la

19:30

inteligencia artificial no nos va a

19:31

quitar el trabajo. Va a hacerlo mejor,

19:33

más rápido, más barato y sin quejarse.

19:36

Aquí la ironía ya está un poco

19:37

implícita. En la segunda viñeta dice,

19:40

"Pronto cualquiera con un ordenador y la

19:42

imaginación de un pepino podrá hacer una

19:43

película épica." Bueno, se ve como un

19:46

prom y genera. Adiós. Años de estudio,

19:49

noches en vela, equipos gigantes, egos

19:51

frágiles y sueldos de Ahora

19:53

basta con pegar y generar el arte

19:54

democratizando la mediocridad también. Y

19:57

aquí en el fondo unos que dicen, "Era

20:00

bueno, pero caro." Y todos los textos

20:03

que aparecen dentro de la imagen, más

20:05

allá de los diálogos, van un poco en la

20:07

misma línea. Aquí ya hace el cine hecho

20:10

con pasión y dignidad. Presupuesto 0 €.

20:12

Resultado, ¿quién sabe? Y termina con

20:15

esto. Pero tranquilos, siempre nos

20:16

quedará el consuelo de decir con aire

20:18

superior. Yo hacía antes, yo lo hacía

20:21

antes de que fuera fácil y de que lo

20:23

hiciera cualquiera con dos neuronas y

20:25

una tarjeta gráfica. Y en el fin pone de

20:29

una época que ya olía mal. Y este

20:32

letrero al final, la inteligencia

20:33

artificial no tiene alma, pero tiene

20:34

mejor iluminación, mejor edición y no

20:36

pide vacaciones. A simple vista, cuando

20:39

lo he leído, me parecía como muy

20:41

literal, pero luego cuando le he dado

20:43

otro vistazo, realmente me parece un muy

20:45

buen resultado. ¿Mejor o peor que el de

20:47

Gémini? La verdad es que me parecen

20:49

ambos dos muy buenos resultados. El de

20:52

Gemi no es tan denso en texto y quizá en

20:55

el fondo tenga un poco menos de mala

20:57

leche, aunque el concepto me parece

20:58

quizá un poco más interesante y mejor

21:00

ejecutado. Año 2023, la IA es nuestro

21:03

copiloto. Qué útil me ahorra me ahorra

21:05

pintar fondos. Año 2025, ahora genera

21:08

todo la película entera. Yo solo le

21:10

sugiero que añada explosiones. Año 2028.

21:13

gran creador me llaman, tú ahora te

21:15

dedicas a limpiar mis ventiladores y que

21:17

al final terminamos simplemente eh

21:20

viendo contenido generado por la IA un

21:22

poco lobotomizados. El mensaje de este

21:25

quizá me parece más potente, pero la

21:27

verdad es que los diálogos y cómo ha eh

21:30

hilado las cuatro viñetas el modelo de

21:32

Open AI también me parece muy muy bueno,

21:34

por lo que aquí lo voy a dejar en un

21:36

empate. Dicho esto, ¿qué os ha parecido

21:39

esta comparativa? ¿Qué os ha parecido el

21:41

modelo? Decidme qué os parece a vosotros

21:43

si lo probáis realmente, porque ya está

21:44

disponible en chat GPT. Y yo solo

21:46

deciros que realmente me ha sorprendido,

21:49

sobre todo, la calidad y la textura de

21:51

las imágenes, porque realmente llega un

21:53

momento en que lo que estás viendo

21:55

parecen realmente imágenes reales. Creo

21:58

que ahora sí ya podemos decir que hemos

22:00

cruzado el umbral donde un modelo

22:03

disponible para todo el mundo sin

22:04

necesidad de recurrir a técnicas

22:06

complejas como loras y entrenamientos

22:08

específicos para terminar de optimizar

22:10

el modelo para crear cierto tipo de

22:12

imágenes y es capaz de crear imágenes

22:14

absolutamente indistinguibles de la

22:16

realidad. Y esto es una gran oportunidad

22:19

para muchos sectores profesionales, pero

22:21

también es una amenaza considerable a la

22:23

hora de difundir información. Dicho

22:26

esto, si quieres seguir aprendiendo

22:27

sobre generación de imagen y vídeo, te

22:29

recomiendo el siguiente vídeo y nosotros

22:31

nos vemos en el próximo vídeo.

Interactive Summary

Este video explora las nuevas capacidades del modelo de generación de imágenes de OpenAI, destacando su habilidad superior para renderizar texto coherente, crear interfaces realistas y generar imágenes a partir de fotografías de referencia sin entrenamiento adicional. El creador compara este modelo con Nano Banana a través de varios casos de uso, incluyendo la creación de infografías, recreación de planos y generación de cómics, concluyendo que aunque el modelo de OpenAI es generalmente superior en calidad visual y realismo, todavía existen áreas donde otros modelos pueden ofrecer resultados más precisos.

Suggested questions

3 ready-made prompts