Opus 4.8 no era lo que esperaba

Watch on YouTube

Now Playing

Transcript

386 segments

0:00

más noticias, mejores noticias o no tan

0:02

buenas noticias, no lo sé, cómo lo

0:04

quieren ver, porque ha salido Opus 4.8,

0:08

la gente de Anthropic el 28 de mayo

0:11

anunció Cloud Opus 4.8 su modelo público

0:15

más potente, porque ya sabéis que tiene

0:16

a Mizos, pero todavía no está disponible

0:18

para el público. Ahora mismo Opus sigue

0:21

siendo el modelo público más potente que

0:23

tiene la gente de Anthropic. Así que

0:25

pasan de Cloud Opus 4.7 y llegan al Opus

0:29

4.8. Dicen que está construido por

0:32

encima de Opus 4.7 con mejoras en todos

0:36

los benchmarks. Ahora lo veremos, que es

0:38

un colaborador más efectivo y que está

0:41

disponible hoy mismo por el 28 de mayo,

0:43

hoy estamos a 1 de junio por el mismo

0:45

precio. Además, Opus 4.8 viene con

0:48

nuevas funcionalidades. Ahora en

0:50

cloud.aiai, AI en la página web,

0:53

básicamente podéis controlar cuánto

0:55

esfuerzo va a poner Cloud en cada tarea.

0:57

Y además Cloud Code tiene una nueva

0:59

funcionalidad que se llama Dynamic

1:01

Worflows, que luego hablaremos de esta

1:02

porque ha venido con polémica también,

1:05

eh, ha venido con polémica y un nuevo

1:07

modo fast mode, ¿vale? modo rápido por

1:09

si no tienes paciencia, pero sí que

1:11

tienes dinero, que puede hacer que

1:12

trabaje el modelo en 2,5x, pero que dice

1:16

que es más caro, pero es tres veces más

1:18

barato que en los modelos anteriores. O

1:20

sea, el modo rápido es más caro que el

1:23

normal, pero es tres veces más más

1:26

barato de lo que lo era anteriormente.

1:28

Es que antes era absurdamente caro, era

1:30

un 25x, una salvajada lo caro que era.

1:32

Bueno, pues aquí tengo las capacidades

1:34

de Opus 4.8. Si os gusta y sois muy

1:36

frikis, que sepáis que tenéis al System

1:38

Car, que esto es un PDF de cuántas lí

1:41

cuántas páginas,

1:43

240 páginas. Vale, por si queréis leeros

1:47

pues todas las cosas, cómo lo han estado

1:49

revisando todos los benchmarks, pues si

1:51

queréis saber pues casos de uso, cómo lo

1:53

han comparado, bla bla bla. Aquí hay un

1:55

montón de datos, datos, datos, datos.

1:57

Está está super bien, pero bueno,

1:59

nosotros ya lo queremos digerido. Y aquí

2:00

tenemos las capacidades de Opus 4.8

2:03

comparados con el resto. Y ojo porque

2:05

hay novedad. Anthropic entra a la

2:07

batalla. Esto es una cosa que antes yo

2:09

no recuerdo o que o que pasara o que no

2:12

pasaba mucho. Yo no recuerdo que antes

2:14

fuese así. Por ejemplo, en Cloud Opus

2:17

4.7 cuando Ah, sí, no, sí que lo tenemos

2:19

por aquí. Ah, ah, ah, sí que lo tenemos.

2:21

Nada, nada. Pues nada, mira, ponía aquí

2:23

Mizos preview. Nada, nada. No recordaba,

2:25

no recordaba que lo comparaba con la

2:26

competencia. Yo pensaba que lo

2:27

comparaban siempre con los suyos

2:28

anteriores, pero no, no. Totalmente,

2:31

totalmente lo comparan. Bueno, pues

2:32

amigos, fijaos, Opus 4.8 lo compara con

2:35

Opus 4.7, es mejor en todo, o sea, mejor

2:38

en todos los benchmarks, que ya sabéis

2:40

que yo de benchmarks ya no es que no no

2:42

sé, a mí los benchmars no me dicen mucha

2:44

cosa. De hecho, ahora daré mi opinión de

2:46

Opus 4.8, no os preocupéis. GPT 5.5

2:49

sigue siendo mejor enentic terminal

2:51

coding, ¿vale? con un 4% mayor, todo el

2:54

resto está peor y Gemini 3.1 Pro que se

2:57

está quedando pues a la zaga, se está

2:59

quedando por detrás del resto en

3:01

general, bastante por detrás en algunos,

3:03

fíjate en agentic muy muy por detrás, o

3:05

sea, ya puedes espabilar Google a ver si

3:07

lo sacan lo sacan a finales de este mes,

3:09

se supone. Entonces, bueno, pues aquí

3:11

tenemos Opus 4.8, mejora en todo, pero

3:15

¿dónde se ve que realmente tenemos la

3:18

mejora? En la honestidad. Por fin

3:20

tenemos un modelo inteligencia

3:21

artificial que dice ser honesto, aunque

3:24

dicen que entrenan todos sus modelos

3:26

para que sean honestos. En este caso

3:28

dice que Opus 4.8 es más honesto en el

3:32

sentido de que si no es capaz de saber

3:34

algo, si se da cuenta que no sabe

3:37

solucionar algo o lo que sea, pues es

3:39

como que te lo va a decir. ¿Sabes que

3:40

dice que un problema general de la

3:42

inteligencia artificial es que muchas

3:43

veces pues salta conclusiones que con

3:45

confianza te dice, "Sí, sí, he hecho

3:47

progreso, he hecho esto y tal, no sé

3:49

cuánto." Y luego pues te lo tienes que

3:50

creer. Pues di, "Sí, sí, lo he

3:51

arreglado." Pero según ellos, Opus 4.8

3:54

och es la primera vez que es cuatro

3:56

veces cuatro veces más posible que sea

4:00

honesto y que te diga, "Oye, no sé

4:02

hacerlo, no lo he solucionado, no sé

4:04

cómo tendría que abordar esto." ¿Vale?

4:07

Entonces, mira, aquí tenemos, por

4:08

ejemplo, el comportamiento que está

4:09

desalineado, está al nivel de Mizos

4:11

preview y cómo ha bajado con una

4:13

puntuación de 1 al 10. Fijaos que antes

4:15

estaba en el 2,5 aproximadamente,

4:18

después ha bajado al 1,8. Claro, cuanto

4:20

menos mejor. ¿Qué más han lanzado este

4:21

día de hoy? Eh, la gente de Out 4.8, los

4:24

Dynamic Workflows, bueno, Dynamic

4:27

Workflows, que esto está en Cloud Code

4:28

for Enterprise, en Team y en los planes

4:31

Max. Lo digo porque si no lo ves es

4:33

porque estás utilizando la suscripción

4:35

de pobre, ¿vale? La que utilizo yo, la

4:37

suscripción de pobre. Entonces, por eso

4:39

seguramente no te no te va a funcionar.

4:41

Y es que aquí tenemos los dynamic

4:43

workflows en Cloud Code y esto ha sido

4:45

bastante polémico. Los workflows, que es

4:48

interesante la idea, esto lo que te

4:49

ayuda es a crear pues esas tareas que

4:52

sean muy complicadas para que las puedas

4:54

hacer de punta a punta, o sea,

4:55

terminarla del todo. Y esto lo que hace

4:58

es que Cloud dinámicamente genera unos

5:01

scripts para ejecutar cientos de

5:03

subagentes en paralelo. Cientos, eh, no

5:05

uno, dos, no, cientos en una sola

5:07

sesión. Y claro, por ejemplo, imagínate

5:10

que quieres hacer una migración de

5:11

Riaaca Solid, pues esto lo que hace es

5:13

como partirse el trabajo en un montón de

5:15

agentes, hacer un montón de fases, se

5:17

vuelve como loco, como loco. Y claro,

5:19

ahí podéis ver toda la de tokens que vas

5:21

quemando, todos los agentes. Mirad aquí,

5:23

35 agentes. Obviamente esto no está

5:25

pensado para cualquier tarea. Pero,

5:27

¿cuál ha sido la polémica? Pues la

5:29

polémica es que este modo se activaba

5:32

cuando tú simplemente escribías la

5:34

palabra workflow. O sea, tú escribías la

5:37

palabra workflow y ya se activaba. Dice,

5:39

"Así que cada vez que digo la palabra

5:41

workflow en Cloud Code, digamos cuando

5:42

estoy creando un nuevo Workflow de

5:44

GitHub. Intenta entrar en modo workflow

5:46

activando docenas de subagentes para

5:48

completar mi tarea. cosa

5:50

estúpida." Dice, "Esto es una elección

5:53

de diseño bastante extraña. ¿Quién pensó

5:54

que esto era buena idea?" Es que es

5:56

verdad. O sea, tú le podías poner un

5:57

prom y automáticamente si detectaba la

6:00

palabra workflow decía, "Ah, ya está

6:02

activado, venga, para adelante." Ya lo

6:03

han arreglado. O sea, ya arreglado de

6:05

que se puede desactivar. Eh, ves, hay

6:06

gente que se estaba quejando, pero es

6:08

que fijaos que dice dentro del workflow

6:10

y encima te lo pone como en narcoiris y

6:12

dice, "Ah, sí, Wflow, venga a quemar

6:14

tokens." Pam, venga, toma 100.000 tokens

6:16

quemados. O sea, brutal, ¿eh? Dice,

6:18

"Quiero hacer esto. Me gustaría crear no

6:20

sé qué sé cuánto. Invocado dentro

6:22

delflow." Vale, y ya está. He dicho

6:24

workflow. Hala, pues venga, a quemarte,

6:26

a quemarte. Ya dice, "Aprecio el

6:27

comentario." Por ahora puedes

6:28

desactivarlo por prom. ¿Ves? Lo tienes

6:31

que desactivar así. Tienes que ir a

6:32

config y lo tienes que desactivar. Lo

6:33

tienes que desactivar tú a mano, si no

6:35

estás Eh, eh, no sé, yo creo que

6:37

este tipo de cosas en todo caso tendría

6:39

que estar desactivado por defecto. No,

6:41

no sé. Estas ideas yo sé que bueno, las

6:43

tienen ellos, obviamente para que así te

6:45

gasten los tokens, pero ¿cómo vas a

6:46

poner una palabra tan evidente en el

6:48

mundo de la promoción como es Wflow para

6:50

activar un modo que te puede quemar la

6:53

casa entera? O sea, es una cosa salvaje.

6:56

Qué bueno que se pueda desactivar,

6:57

¿vale? Pero no sé, creo que hubiera sido

6:59

buena idea que estuviera desactivado por

7:00

defecto y que se tuviera que activar con

7:02

un comando como se ha tenido que hacer

7:03

hasta ahora. No sé, por si no lo sabéis,

7:05

la reescritura de B resulta que lo

7:06

hicieron con estos dynamic workflows.

7:08

Dice que toda reescritura de B, Jarred

7:11

Summer utilizó las dynamic workflows

7:13

para pasar B de thick a RAS, que ya

7:15

sabemos cómo lo hizo tan rápido. Lo hizo

7:16

así y teniendo tokens infinitos, como os

7:19

podéis imaginar. Bueno, esto es Opus

7:21

4.8. Entre todas las cosas y

7:24

disponibilidad y tal, lo más

7:26

interesante, yo creo, aparte de las

7:27

mejoras, es que el precio sigue siendo

7:29

el mismo. No ha cambiado el precio

7:31

respecto a Opus 4.7. Buena noticia,

7:34

porque normalmente estaba subiendo los

7:36

precios de las APIs cada vez que salía

7:38

un nuevo modelo. En este caso parece ser

7:40

que no. Sigue siendo lo mismo. $ por

7:42

cada millón de tokens de input, $25 por

7:46

cada output por millón de tokens. Y el

7:48

fast mode pasa a ser simplemente el

7:51

doble, o sea, un 2X que está bastante

7:53

bien de precio. O sea, ahora si activas

7:55

el modo rápido tienes que son $10 por

7:57

millón de tokens en input y $50 por

8:00

millón de tokens el output. Bueno, pues

8:02

ahí ahí lo tenéis, Opus 4.8. Ahora, la

8:06

pregunta del millón, eh, ¿vale? Bueno,

8:09

lo primero que os tengo que comentar, si

8:10

lo mira, lo voy a poner por aquí, hecho

8:12

una pequeña aplicación que tenía ganas

8:14

de hacer y que sepáis que lo he tenido

8:15

que hacer la mitad con Visual Studio

8:17

Code y la otra mitad con cursor. ¿Por

8:19

qué? Porque no me daba con Visual Studio

8:21

Code no me daba. Y para que veáis que

8:23

tampoco con Visual Studio Code hecho

8:24

tanto trabajo, creo que tengo por aquí

8:27

un poco eh lo que es el chat, ¿vale?

8:29

Entonces, veis ahí más o menos cada

8:31

conversación han sido dos o tres proms,

8:34

¿vale? para os hagáis un poco la idea.

8:36

Entonces, fijaos que empecé hace 8 horas

8:38

y aquí 5 horas. Pues claro, ya veis ahí

8:40

un poco el uso que os decía que pues que

8:42

ha sido una pasada, ¿no? Que todo lo que

8:44

lo que ha estado utilizando de de

8:45

créditos y todo esto. Entonces est

8:48

utilizando Opus 4.8 y fijaos que aquí ya

8:50

ni siquiera ni siquiera te pone el 2x y

8:53

ya no te dice nada, ya solo te dice

8:55

coste alto, te va a costar la vida. Ya

8:57

en Visual Studio Code ahora no te dice

8:58

si es 1x, 2X, 50X, simplemente te dice

9:02

coste por 1,00ón y te dice entrada 500

9:03

créditos. Entré 50 créditos, resultado

9:06

2,500 créditos. Eso es todo lo que te

9:07

dice. Punto. Ya está. ¿Sabes? No te dice

9:10

te habla por créditos, pero es que por

9:11

créditos es como muy difícil de

9:13

entender. Y fijaos que GPT 5.5 y Opus

9:16

pues tienen más o menos el mismo precio,

9:19

que a mí me sorprende. De hecho, GPT 5.5

9:21

es más caro, es más caro que Opus 4.8.

9:24

Me sorprende que Microsoft, siendo un

9:27

accionista de Open AI, no hayan podido

9:29

conseguir mejor precio. No sé. yeminite

9:32

3.5 flash. Fijaos que es más barato,

9:34

pero que también es bastante caro, ¿eh?

9:36

Va por créditos. Es así, créditos,

9:37

créditos. Bueno, total que he estado

9:38

utilizando Opus 4.8 y os vengo a dar un

9:41

poco mis opiniones. Tengo que deciros

9:43

una cosa que a ver si os encuentro la

9:45

conversación, porque he tenido una

9:46

conversación que me ha costado la vida

9:48

que me entendiese. Mira que le he

9:50

hablado bien, eh, está quedando muy

9:52

bien, o sea, le hablo bien y tal. Oye,

9:54

tengo que decir que primero yo no he

9:56

detectado ninguna mejora sustancial con

9:58

Opus 4.7. cero, o sea, he detectado

10:01

cero. Y, de hecho me ha sorprendido que

10:03

en ciertas cosas me ha funcionado peor.

10:06

Yo ya no sé si soy yo, si es la

10:08

inteligencia artificial, pero me da la

10:10

sensación que si me hubieran dicho que

10:12

era Opus 4.5 me lo hubiera creado, que

10:15

ahora alguien me me vendrá y me dirá,

10:16

"No, pero yo digo que con este proyecto,

10:19

que un proyecto que al final ha quedado

10:20

bastante bonito, también voy a decir

10:21

otra cosa polémica. Me sabe mal, eh,

10:23

pero voy a decir una cosa polémica. Creo

10:24

que Cursor está a otro nivel ahora mismo

10:27

respecto a Visual Studio Code. Ya no es

10:29

el problema de la suscripción, es el

10:31

problema de que a nivel de experiencia

10:33

de desarrollo, a nivel de cómo funcionan

10:34

los modelos y tal, en Visual Studio

10:36

Code, de vez en cuando me estaba

10:37

machacando los cambios yo, madre mía,

10:40

qué desastre, qué desastre, tío. Nada,

10:42

nada, mucho mejor Cursor, ¿eh? Cuando he

10:43

trabajado con Cursor, mucho mejor, tío,

10:46

mucho, mucho mejor. En fin, que

10:47

igualmente, igualmente, bueno, he hecho

10:49

este proyecto, ¿vale? Este proyectillo

10:51

es una tontería, pero es para ponerle

10:52

subtítulos a cualquier vídeo utilizando

10:54

inteligencia artificial. Entonces, eh

10:56

esto es inteligencia artificial en local

10:59

porque yo le pongo muchas muchos

11:00

subtítulos a muchos vídeos y yo no tenía

11:02

ganas de pagar a nadie. Entonces esto lo

11:04

que hace es que tú puedes eh configurar

11:06

los subtítulos, lo detecta

11:07

automáticamente, el audio de entrada y

11:09

el de salida. Esto es totalmente de

11:10

código abierto, por cierto, que no lo he

11:13

subido el repo todavía, creo, pero lo

11:14

subiré. Entonces, genera los subtítulos.

11:16

Esto funciona en mi máquina, en local

11:18

utilizando web GPU, utilizando Whisper,

11:20

utilizando modelos en local. Y ahora si

11:23

todo va bien y no me peta el stream

11:25

porque estoy utilizando inteligencia

11:26

artificial y tal, bueno, pues debería

11:28

hacer la transcripción y vais a ver que

11:30

además he hecho un editor para que

11:32

podáis, ¿ves? Un editor donde puedes

11:33

cambiar eh pues el estilo de los

11:36

subtítulos. Los subtítulos los puedes

11:37

customizar más todavía, los puedes hacer

11:39

más grandes, los puedes eh hacer que

11:41

estén negrita, que tengan un background,

11:43

los puedes poner arriba, en medio,

11:45

abajo. Total, esto es una herramienta

11:46

que me he hecho un poco para mí, eh, que

11:47

además pues aquí tienes pues eh para ver

11:49

el editor de vídeo y tal y puedes pues

11:53

cambiar aquí lo que sea, ¿no? Aquí pues

11:55

le puedes decir, esto es un subtítulo.

11:57

Jajaja. Ahí puedes cambiar subtítulo y

11:59

lo que puedes hacer es descargarte el

12:01

vídeo con los subtítulos y ya está. Así

12:02

que nada, la verdad es que al final lo

12:04

he conseguido hacer. tenía la idea

12:06

bastante clara. He tenido que hacer

12:07

algunos cambios a mano, sobre todo el

12:09

tema de Wake Workers, Opus 4.8, pues no

12:11

era capaz, no era capaz de sacarlo y no

12:14

funcionaba y no había manera, tío. Pero

12:15

bueno, creo que ha quedado bastante

12:17

bien. Además, le he puesto para

12:18

deshacer, ¿vale? Si por ejemplo quieres

12:20

rehacer o puedo hacer control Z y

12:22

deshace los cambios. Puedes hacer esto

12:24

más pequeño por si quieres que los

12:25

subtítulos pues a veces salgan, a veces

12:27

no salgan. Los puedes eliminar también,

12:29

se puede hacer cositas, se pueden hacer.

12:30

Esto lo he hecho con Opus 4.8. Opus 4.8

12:33

está muy bien, o sea, no digo que sea

12:35

mal modelo, pero realmente tampoco me

12:37

parece un salto cualitativo y de hecho

12:40

me ha costado, me ha costado que a veces

12:42

me entienda, tío. Eh, no he tenido esta

12:44

sensación, por ejemplo, con GPT 5.5 o

12:46

con Opus 4.8. O sea, que no sé, tío. Me

12:49

ha sorprendido que le le estaba costando

12:52

entenderme. Era como que, ¿qué le pasa?

12:54

¿Qué te pasa, tío? Reacciona. ¿Que te

12:56

estoy hablando en chino o qué? No sé, no

12:58

me entiendes. O sea, era un poco tener

13:00

que preguntarle. Entonces, ya no sé si

13:01

ha sido Visual Studio Code o si es el

13:03

modelo, ¿sabes? Tampoco puedo

13:05

diferenciar, pero funciona bastante

13:06

bien. Así que le vamos a dar una

13:08

aprobada al Opus 4.8. Además, han

13:09

mantenido precios muy bien, las cosas

13:11

como son. Perfecto. Así que nada, ahí os

13:14

lo subiré, os subiré el proyecto. Ya

13:16

tengo la el dominio y todo, así que muy

13:18

pronto os lo dejo por aquí.

Interactive Summary

Ask follow-up questions or revisit key timestamps.

El video analiza el reciente lanzamiento de Claude Opus 4.8 por parte de Anthropic. Se destacan sus mejoras en benchmarks, una mayor capacidad de honestidad del modelo al admitir cuando no sabe algo, y la introducción de 'Dynamic Workflows' en Claude Code, una funcionalidad potente pero polémica debido a su activación automática. El creador comparte su experiencia práctica usando el modelo para desarrollar una herramienta de subtitulado local, expresando sentimientos encontrados sobre si realmente supone un salto cualitativo respecto a la versión anterior y comparando la experiencia de desarrollo entre Visual Studio Code y Cursor.