La IA GRATIS le ROBA su ÚLTIMA NOVEDAD a GOOGLE
827 segments
Cada vez está más claro. Lo que pagas
cada mes por Chatpt, por Cloue, por
Gémini, tiene fecha de caducidad y esa
fecha se acaba de anticipar brutalmente
con las novedades de esta semana.
Tenemos nuevos modelos de lenguaje open
source, uno que puedes usar en tu PC, un
PC medio y que puedes usar para resolver
tus tareas diarias usándolo como un
agente como Antigravity o Cowork. La
inteligencia artificial local ya
resuelve tareas automáticamente. Te lo
demostraré. El otro, una bestia que
compite con lo último de OpenI, pero
esta transformación afecta a toda la
inteligencia artificial generativa. En
noviembre, Google publicó su mejor
modelo de imagen, Nanobarana Pro,
cerrado de pago. 6 meses después, un
modelo open source le planta cara y lo
puedes ejecutar en un PC medio. El 20 de
mayo, Google presentó Gémini OVNI, su
modelo de vídeo más avanzado. 12 días
después, Bite Dance publica la
alternativa open source desde China.
Vermín, 6 meses y 12 días de diferencia.
Y eso es solo en imagen y vídeo. En
modelos de lenguaje, Nvidia acaba de
presentar Nemotron 3 Ultra. Rinde como
GPT 5.5 a una décima parte del precio y
Google un nuevo Gema 4. Hoy te enseño
qué puedes hacer con los cuatro y te
explico por qué lo que estás viendo no
es solo una noticia. Es la constatación
de que haya abierta una ventana de
oportunidad a la que puedes sacar
provecho antes de que se cierre. Estoy
convencido de ello porque sigo la
inteligencia artificial en local desde
antes de la llegada de Chat GPT, por lo
que hoy también te voy a explicar porque
creo que lo va a cambiar todo.
Y empezamos por la primera novedad, un
viejo conocido que ha cambiado mucho.
Ideogram. Han presentado Ideogram 4 y es
open source. Se coloca como un modelo al
nivel de la noarana pro en los rankings.
Si no lo recuerdas, detrás de Biograma
hay un equipo de investigadores que
salieron de Google Brain, el laboratorio
donde Google desarrolla sus modelos de
inteligencia artificial más avanzados.
Se fueron a Toronto, montaron su propia
empresa y se obsesionaron con una sola
cosa, generar imágenes con texto
incrustado legible. Más que un generador
de imágenes, querían un generador de
creatividades gráficas, acercarse más al
trabajo del diseñador gráfico que no al
del fotógrafo o ilustrador y lo
consiguieron. Ahora hay muchos modelos
que lo hacen bien, pero fue el primero
que apostó por ello. En su momento, sus
modelos eran de código propietario,
cerrados, pero han decidido que la nueva
versión de su modelo sea open source,
por lo que ahora tenemos un modelo al
nivel de nano pro con capacidad para
generar imágenes, editar imágenes y
renderizar texto completamente gratuito.
El modelo ya está disponible y lo puedes
descargar ahora mismo. Puedes ejecutarlo
y también reentrenarlo, por ejemplo,
para adaptarlo a tu estilo. Vamos a
verlo en acción. Y usar ideograma en
local es muy sencillo. No tenéis que
preocuparos de ir a descargar los
modelos ni nada por el estilo.
Simplemente acced a la web de Confi y
descargar la aplicación. Una vez la
tengáis instalada, simplemente tendréis
que cargar una plantilla. Accederéis a
una interfaz como esta. Y si os fijáis
aquí a la izquierda en este menú, pues
el último elemento es el de plantillas.
Si accedéis aquí y en la parte del
buscador, pues buscáis precisamente
Ideogram, pues os aparecerá esta
plantilla de aquí, Ideogram V4, texto a
imagen. Simplemente la seleccionáis y
automáticamente se os cargará en vuestra
interfaz. Por lo que una vez visto cómo
se instala, que ya habéis visto que es
muy muy fácil, toca generar algunas
imágenes en local con este modelo. Aquí
podéis ver un primer ejemplo. Este en
concreto lo he generado a 4 megapíxeles
para que podamos ver el detalle que
genera cuando la imagen es un poco
grande. Está generada a partir de una
instrucción de texto que consiste en una
foto macro de un insecto posado encima
de una flor. Lo podéis leer con calma. Y
esta es la imagen que me ha generado. Y
como podéis ver, el nivel de detalle es
asombroso. Podemos ver el insecto
perfectamente posado encima de la flor,
los diferentes pétalos, las gotas de
agua y bueno, el estilo que le había
pedido con este fondo muy desenfocado.
Una imagen como esta en mi PC se genera
en unos 2 minutos, pero lo interesante
es que podemos generar imágenes mucho
más rápido si reducimos el tamaño. Por
ejemplo, sin cambiar el prom ni ningún
otro parámetro, simplemente reduciendo
el tamaño de la imagen, por ejemplo, a 1
megapíel, fijaros lo rápido que genera.
Le doy a ejecutar y empieza a generar la
imagen. Y aquí podéis ver como la barra
está progresando y en unos pocos
segundos, alrededor de 10, 15 segundos,
nos habrá generado esta misma imagen,
pero en vez de haberla generado a 4
megapíxeles, nos la habrá generado a 1
megapíel. Y en este caso, este sería el
resultado que obtendríamos a 1 megapíel.
Obviamente tiene mucho menos detalle,
por lo que una vez visto cómo funciona
lo que podemos llegar a crear y lo
rápido que va, lo que toca ahora es ver
diferentes ejemplos de lo que puede
generar este modelo, especialmente
cuando incluimos texto dentro de las
imágenes. Los voy a generar en este caso
todos a 2 megapíxeles. Aquí tendríamos
el primer resultado. El prome es este de
aquí. esencialmente una fotografía de
producto, en este caso de un aceite
donde lo interesante es fijarnos en los
textos que debe incluir la imagen.
Aceite de oliva virgen extra, edición
limitada de Jaén, cosecha premium, 100%
artesanal. Pues bien, si nos vamos a la
imagen que nos ha generado que es esta
de aquí, pues podemos comprobar cómo
aparecen estos textos. Aquí tenemos la
imagen aceite de oliva virgen extra,
edición limitada de Jaen, cosecha
premium. 100% artesanal. Lo ha hecho.
Perfecto. Y una vez vistos estos
ejemplos de cómo funciona Ideogramen con
Fui, vamos a seguir con algunos ejemplos
más y un juego. Y es que creo que es
interesante compararlo con nano banana,
de modo que los siguientes ejemplos os
voy a mostrar, como estáis viendo ahora,
dos imágenes. Una hecho con ideogram en
local y otra hecha con nanobanana en
Gémini. A ver con cuál de las dos os
quedáis. Este es el primer ejemplo.
Miradlo bien. ¿Y cuál creéis que ha
hecho Nanobanana? ¿Y cuál creéis que ha
hecho Ideogram? En este primer ejemplo,
la imagen de Nano Banana es la de la
derecha. Es la que os gustaba más. Os
gustaba más la de Ideogram. Mientras os
lo pensáis, vamos con el siguiente
ejemplo. Es este de aquí. Una imagen
estilo anime para no hacerlo todo estilo
fotorrealista. ¿Cuál de las dos os gusta
más? O ¿cuál creéis que es la de
Ideogram? ¿Izquierda o derecha? En este
caso, la imagen de ideogram es la de la
izquierda, la de la derecha es la de
Nano Banana. ¿Cuál ha ganado? Mientras
os lo pensáis, seguimos con el siguiente
ejemplo. Este diseño de cartel, una de
las dos la ha hecho Ideogram y la otro
nano bananana. ¿Con cuál os quedáis?
¿Con la de la izquierda o con la de la
derecha? Yo, en este caso, me quedo con
la de la derecha y es la que ha hecho
Ideogram. La de nanobanana era la de la
izquierda. Y finalmente tenemos este
ejemplo un poquito más recargado con
este cartel estilo colis donde una de
las dos imágenes la ha hecho nanobanana
y la otra Ideogram. ¿Con cuál os
quedáis? Fijaros bien mientras os
desvelo que la que ha hecho Nanobanana
es la de la derecha. En casa he hecho el
test ciego y ha ganado 3 a un ideogram.
¿Este es el resultado que habéis
conseguido vosotros o os han gustado más
los resultados de Nano Banana? Os leo en
los comentarios. Y ojo, porque esta ni
tan siquiera es la máxima calidad que
puede dar Ideam. Lo he usado en local en
una versión cuantizada para que la
mayoría de vosotros lo podáis probar y
podáis conseguir los mismos resultados.
Pero, por ejemplo, si lo queréis probar
a la máxima calidad y no disponéis de
una buena GPU, lo podemos probar también
en Magnific, donde ya está disponible.
De modo que si nos vamos a generar
imágenes, seleccionamos el modelo de
Ideogram 4, pues aquí podríamos replicar
alguno de los ejemplos que hemos hecho y
veréis como la calidad es incluso mejor.
De este modo le voy a poner el prom de
la imagen de la fotografía editorial y
la voy a generar en calidad, en este
caso alta. Y aquí podéis ver el
resultado. Como podéis ver, es un
resultado de mayor calidad incluso que
el que yo he conseguido utilizando la
herramienta en local. Y este no es el
único ejemplo que he replicado. Aquí
podéis ver el cartel que me ha hecho con
el prom estilo collage en Magnific, por
ejemplo, la imagen del insecto posándose
encima de esa flor roja o esta imagen de
aquí con el personaje estilo anime que,
como podéis ver tiene mucho más detalle
y muchos más elementos en la imagen. Y
es que Magnificit
de creatividad ideal si necesitas
generar imágenes y vídeo en tu día a
día. No solo porque es las primeras en
incorporar los últimos modelos, como
acabas de comprobar con Ideogram 4, o
puedes comprobar rápidamente viendo cómo
tienen disponibles Idens 2, sino porque
también te permiten trabajar de modo más
rápido gracias a su nueva función de
agente. Aquí podéis ver un ejemplo. Le
pido en una sola instrucción que me
genere dos personajes, una escena donde
aparezcan ambos y su hoja de personaje.
Diseña el plan y yo simplemente lo
apruebo. automáticamente me genera este
resultado. Cuatro imágenes, cada una de
ellas generada con el modelo más
apropiado, entregadas automáticamente.
Además, con Magnific
puedes acceder a la generación de imagen
y vídeo ilimitado con modelos como Nano
Banana 2 y Clin 2.5. Encontrarás toda la
información en el enlace de la
descripción.
[música]
Y ahora vamos a por la otra gran
novedad, un nuevo modelo de lenguaje
open source. Y en este caso no viene de
China, viene de Estados Unidos. Esta
semana Google ha publicado Gema 4 de
12,000 millones de parámetros. Es
totalmente multimodal, procesa texto,
imagen y audio. Y corre también en tan
solo 16 GB de memoria. Eso es en un
portátil actual de gama media alta. Y lo
bueno de este lanzamiento es que no solo
podemos probarlo, nos permite compararlo
con su competencia china. ¿Es mejor o
peor que los modelos de Quen? Google y
Alibaba, Estados Unidos y China, ambos
compitiendo por ver quién te regala el
modelo más potente. Una guerra comercial
que en vez de levantar muros está
democratizando la inteligencia
artificial. Pero antes de ver los
ejemplos y la comparación con los
modelos de Quen, creo que es interesante
entender qué podemos esperar de este
nuevo modelo, el Gema 4 de 12,000
millones de parámetros. y seré muy
breve, pero esencialmente lo que nos
dicen es que es un modelo que se puede
ejecutar en portátiles de consumo, ya
que solo requiere de 16 GB de RAM y que
rinde a un nivel similar al modelo de
26,000 millones de parámetros que
funciona como un MOE. Aquí podríamos ver
los resultados de los principales
benchmarks, pero esencialmente lo que
han conseguido es que un modelo necesite
la mitad de memoria para dar un
rendimiento igual o superior. Y ahora lo
que vamos a hacer es ponerlo a prueba. Y
hoy os traigo una sorpresa porque no lo
vamos a hacer del modo habitual, no
vamos a chatear simplemente con él, sino
que lo vamos a utilizar de modo
agéntico. ¿Y a qué me refiero por un
trabajo agéntico? Pues esencialmente a
encargar a este modelo que se va a
ejecutar en local una tarea que hasta
hace poco solo le podíamos asignar a
Cowork o Antigravity. una tarea que
requiere de skills y de uso de
herramientas e incluso ejecutar código,
además de gestionar múltiples recursos
para llegar a un entregable final, que
en mi caso será un documento creado a
partir de la transcripción de un vídeo
como este que estáis viendo, que incluso
incluirá una infografía hecho con
nanobanana. Y es que esta vez vamos a
seguir ejecutando el modelo en LM
Studio, pero lo habilitaré vía API para
que pueda acceder a él el agente de
Hermes. Como podéis ver aquí abajo tengo
acceso vía LM Studio, pues a este
modelo, al YMA 4 de 12,000 millones de
parámetros. Hermes es una herramienta
que aún no he traído al canal porque he
estado investigando con ella cómo poder
darle utilidad y que nos ofrezca algo
diferente a lo que realmente podemos
hacer con otros agentes de inteligencia
artificial como puede ser antigravity,
cloud y de un modo más sencillo. Y la
verdad es que le estoy empezando a
encontrar casos de uso muy interesantes,
por lo que si lo que vais a ver a
continuación os parece interesante,
decídmelo en los comentarios que
intentaré traeros algunos vídeos sobre
esta herramienta. Para simplificar un
poco, es como una alternativa a
OpenCloud, un agente que puede utilizar
herramientas, puede utilizar skills y
con el que podemos conectar
prácticamente cualquier modelo, incluso
modelos que estemos ejecutando en local.
La idea del ejemplo de hoy es muy
sencilla. Lo que voy a hacer es utilizar
esta carpeta de aquí donde está este
vídeo, que este vídeo es mi último vídeo
del canal, el vídeo donde os hablaba de
las últimas novedades de Nvidia y del
RTX Spark. La idea es poder hacer una
transcripción y a partir de esa
transcripción crear un documento que
contenga una infografía creada con
nanobanana. Para hacerlo, simplemente
ahora que lo tengo todo configurado con
las skills correspondientes y el modelo
de Yema conectado a la gente, será
simplemente enviarle un prom como este.
Eres un agente de producción de
contenido, ejecuta estos pasos en orden
sin pedir permiso de confirmación entre
ellos y esencialmente lo que le voy a
pedir es que haga una transcripción
utilizando pues una skill de Whisper. A
partir de esta transcripción redacte un
informe que tiene una estructura
concreta. A partir de aquí, escriba al
prom para hacer la infografía, llame a
la API de Nanobanana y cree la imagen y
finalmente maquete toda esta información
en un documento de Word con mi identidad
de marca. Y esto lo podrá hacer gracias
a una skill. El objetivo final es que
entregue un archivo en formato A to Kcks
maquetado con la infografía integrada y
simplemente se lo envío. Y aquí podéis
ver cómo empieza a trabajar y realmente
trabaja de un modo muy rápido. Este es
un modelo muy ligero. La duda es si será
capaz de manejar todo este entorno
agéntico para llegar al resultado
correcto. Y el agente ya ha terminado,
me ha dado la respuesta y me dice que ya
tengo el informe generado. Antes de ver
el informe, simplemente repasar muy
rápidamente el proceso que ha seguido.
Fijaros cómo ha seguido un proceso muy
similar al que seguiría, por ejemplo,
Cloud Cowork. Ha consultado la lista de
skills que tenía disponible. ha
seleccionado una skill en concreto, la
de transcripción de Whisper, que era
necesaria para extraer la transcripción
del vídeo. Y a medida que vamos bajando,
podemos ver el resto del proceso.
Podemos ver que una vez ha ejecutado la
skill, también ha ejecutado diferentes
scripts de Python para ir completando el
proceso. Y si vamos bajando, podemos ver
cómo ha utilizado otra skill, que era la
de maquetar el documento con mi
identidad de marca. De modo que si vamos
a la carpeta donde antes solo había el
vídeo de YouTube, ahora nos encontramos
con todos los recursos que ha ido
creando para completar el trabajo. Es
decir, nos encontramos con el audio
extraído a partir del vídeo. Nos
encontramos también con la transcripción
y como podéis ver es correcta. También
nos encontramos con la infografía que ha
generado con nanobanana y también el
texto del informe sin maquetar. Y
finalmente pues el archivo doc X que
luce de esta manera. Lo abrimos y aquí
podéis ver cómo ha introducido los
encabezados correctos con mi logo y el
texto pues sigue mis colores
corporativos y sigue este estilo de
cajas coherente a lo largo de todo el
documento. Y si bajamos un poco más,
pues nos encontramos como también ha
incorporado la infografía. Como podéis
ver, un trabajo muy solvente que hasta
hace poco solo podíamos hacer con
agentes como Clockco War Antigravity y
apoyándonos en modelos en la nube. Ahora
lo podemos hacer con un agente open
source, como es el caso de Hermes y
utilizando incluso modelos en local como
es este Gema 4. Y una vez visto lo que
es capaz de hacer este modelo en un
entorno agéntico, toca ir a la
comparación con los modelos chinos, con
los modelos de Alibaba, la familia de
Quen. Y para hacerlo, lo que he hecho es
centrarme en un caso de uso
paradigmático, es decir, el caso de uso
que para mí es más relevante a la hora
de utilizar modelos en local, como es
procesar información sensible, extensa y
que no queremos que viaje a la nube.
Para ello utilizo este documento que es
la memoria anual de Mercadona. ¿Por qué?
porque es un documento extenso y que
contiene una gran cantidad de datos
fácilmente verificables. Por lo que lo
que hago es pedirle al modelo, en este
caso al Gema 4 de 12,000 millones de
parámetros, que genere un informe muy
extenso con una estructura concreta y
que me permita verificar esta
información. Y lo que me devuelve es un
informe como este que estáis viendo
aquí, un informe con muchos bloques, un
bloque de radiografía financiera con
todos estos datos que puedo verificar,
un bloque de mapa operativo con todos
estos datos que también se pueden
verificar, el bloque de capital humano,
donde están datos como la plantilla, el
desglose por país, porque está España y
Portugal, sostenibilidad y medio
ambiente y así hasta un total de ocho
bloques a de los cuales le pido que
saque una gran cantidad de información.
Este informe se lo he pedido al Gema 4
de 12,000 millones de parámetros y en su
momento también se lo pedí al quen 3.5
de 9,000 millones de parámetros. Es esta
conversación de aquí. Y también fue
capaz de generar un informe realmente
muy muy extenso. De hecho, aparecen los
ocho bloques, por lo que ahora lo único
que necesito es un árbitro que compare
estos dos informes y me diga cuál es
mejor. Y este árbitro es Cloud. Y ya
estamos en Cloud. Lo que he hecho es muy
sencillo. Le he pasado el informe en
PDF, el informe original, la fuente, y
los dos informes generados. El primer
informe es el de Gema 4 de 12,000
millones de parámetros y el segundo es
el que ha generado el quen de 9,000
millones de parámetros. Y simplemente le
he pedido que los compare respecto a la
fuente y me dé tablas comparativas. De
modo que si vamos bajando nos
encontramos con este primer resultado,
un primer resultado donde vamos viendo
la información que ha ido seleccionando
y comparando del informe uno y del
informe dos. Y lo cierto es que el
resultado es bastante sorprendente
porque cuando nos vamos a la columna de
quién acierta tiende a ganar el informe
dos, el informe del modelo chino de
Quen, que además es un modelo más
pequeño y que ya tiene algunos meses. De
hecho, aquí podéis ver como en algunos
casos gana el modelo chino porque
simplemente Geman no ha mencionado
algunos datos, por lo que gana el
informe dos. En otros empatán y cuando
vamos aquí al final nos damos cuenta de
que en la valoración global termina
ganando el modelo de Alibaba. Le da una
nota media de 9,1 por un 8,3 al informe
del modelo de Google. La conclusión pues
la tenemos aquí. El informe uno, que
sería el de Gema 4, pues es muy bien
organizado por bloques temáticos,
lenguaje claro, incluye detalles de
crisis de la Dana y sección de
innovación con todas las herramientas y
sus funciones, más legible para
dirección no técnica, mientras que el
informe 2 aporta una capa financiera
superior y más rigor en las citas con
números de página y reconoce mejor los
límites del documento. Es un análisis
más de analista. Vamos, que en general
lo ha hecho mejor este modelo chino que
como os digo, tiene ya unos meses de
antigüedad y además es un modelo más
pequeño. Por lo que para este tipo de
tareas, que como os digo son las tareas
habituales donde merece realmente la
pena utilizar un modelo en local, el
modelo de Quen quizás sea aún una mejor
opción. ¿Hacen esto al nivel de Clow
Topus o GPT 5.5? [música] Pues como
habéis podido ver, para esta tarea
concreta el resultado es prácticamente
idéntico, pero siendo sinceros, para
tareas más complejas los modelos de pago
siguen muy por delante. Pero para lo que
acabas de ver, que es lo que la mayoría
hace ocho de cada 10 veces que abre Chat
GPT, esto funciona y funciona en tu
máquina. Y los dos los han liberado con
licencia Apache 2.0. Eso significa que
los puedes usar para lo que quieras,
incluso con finalidad comercial, sin
pedirle permiso a nadie. Hace un año, un
modelo de este tamaño no hacía esto con
esta calidad. Hoy sí y dentro de 6 meses
serán incluso mejores. Si confiamos en
Carpazi, uno de los referentes y
cofundadores de Openai, los modelos de
1000 millones de parámetros podrían ser
tan capaces que nos pueden llegar a
parecer prácticamente una IGI.
Es curioso que en la historia del sector
todo se centrara tanto en la
escalabilidad. Vamos a crear modelos
mucho más grandes con billones de
parámetros. En cuanto a su tamaño,
crecieron y ahora incluso han empezado a
reducirse. Sus modelos son más pequeños.
Ya predice que podríamos tener núcleos
cognitivos muy buenos, incluso con 1000
millones de parámetros. Todo debería ser
así. Si hablas con un modelo de 1000
millones de parámetros en 20 años
tendrías una charla muy productiva.
Piensa, eh, y se parece mucho más a un
humano. Es decir, algún día quizá la IGI
viva en tu ordenador, pero aunque no
lleguemos a ese nivel, hay un gran
margen de mejora todavía. Por lo que la
pregunta ya no es si estos modelos que
podemos ejecutar hoy en día son
suficientemente buenos. La pregunta que
debes hacerte es, ¿en qué momento estos
modelos ya podrán cubrir la mayor parte
de tus necesidades de un modo óptimo? En
cuanto llegue ese momento, ¿por qué
deberías pagar o depender de la nube por
mucho que los últimos modelos sean
mejores? Pero la calidad es solo un
argumento para apostar por ellos. Hay
otros que tienen más importancia y que
te dan una ventaja enorme.
Vamos a hacer una cuenta rápida, 3,000 €
que es lo que te puede costar un PC de
gama media alta dividido entre 20 € al
mes. ¿Cuánto te da? 150 meses. Casi 12
años y medio de pago de suscripción. La
conclusión haciendo esta cuenta puede
parecer obvia. ¿Para qué vas a gastar
eso para ejecutar modelos en tu máquina?
Pero quizá estés aplicando la lógica
errónea porque estás comparando cosas
que no son comparables. El pago de
suscripción te da acceso a un modelo
genérico, el mismo para ti que para
otros 200 millones de personas que
pueden tener necesidades opuestas a las
tuyas. Y sí, puedes condicionar sus
respuestas, instrucciones
personalizadas, GPDs a medida,
documentos de contexto y para muchas
tareas es suficiente. Pero un modelo en
local te deja hacer algo que va un paso
más allá. Se llama Fine Tuning. Tú le
das tus propios documentos, factura,
respuestas, datos reales y reentrenas el
modelo para que aprenda a replicar tu
forma de trabajar. No es solo darle
instrucciones, es que el modelo cambie
para adaptarse a ti. Y el modo más
visual de verlo es con imágenes como
estas que he generado en mi ordenador.
Aquí puedes ver algunos ejemplos con mi
cara y aquí otros ejemplos con un estilo
que entrenamos, pero lo puedes entrenar
para cualquier tarea o para condicionar
cualquier capacidad del modelo. Además,
cuando trabajas en local, tus datos no
salen de tu máquina, no pasan por un
servidor de OpenI, de Google ni de
nadie. Para un abogado, un médico o una
empresa que trabaje con información
sensible, esto no es un capricho, es
prácticamente un requisito. Y hay otra
cosa que nadie valora hasta que la
pierde, la estabilidad. El modelo no
cambia a no ser que tú lo cambies. No te
actualizan el servicio un martes y el
flujo de trabajo que tenías montado deja
de funcionar. No te suben al precio, no
te recortan funciones ni te cambian las
reglas sin avisar. En local no usas
modelos, construye sistemas de los que
eres propietario. Con herramientas como
Confi puedes montar un sistema que haga
una tarea específica de principio a fin,
por específica y concreta que sea. Tú lo
diseñas una vez y después funciona solo.
Significa disponer de la posibilidad de
construir una máquina que se adapte
justo a lo que tú necesitas. Y no te voy
a engañar, la configuración es lenta, no
es fácil, tampoco es ágil y es un poco
técnico, todo hay que decirlo, pero
crear este ecosistema, tómatelo como
enseñarle a un empleado nuevo. Y una vez
que lo tengas, este sistema funcionará
24 horas al día, 365 días al año, sin
pagar ni sueldo ni suscripciones, sin
que tus datos salgan de tu ordenador.
¿Te acuerdas de las cuentas que hemos
hecho hace un rato? los 3,000 € en 20
meses. Ahora podremos hacer la cuenta
diferente. Imagina que consigues
disponer de un sistema que solucione el
volumen de tareas que te haría un
trabajador. Ahora compara esos 3,000 €
entre lo que te costaría un empleado que
haga eso durante esos 20 meses. La
cuenta ya luce diferente, ¿verdad? Y
recuerda que esto no pasa solo con
modelos pequeños. Esta semana Nvidia ha
publicado en Nemotron 3 Ultra. Es
demasiado grande para tu portátil.
Necesita un servidor, pero es open
source. Y el dato importante, rinde al
nivel de GPT 5.5 a una décima parte del
precio, 5 centavos donde GPT cobra 56. Y
si queréis probar este modelo de un modo
completamente gratuito, lo podéis hacer
en Open Router, donde podéis ver como el
Nvidia Emotron 3 Ultra está en estos
momentos gratuito, por lo que tendríais
que ir a la pestaña de chat, darle aquí
arriba añadir modelo y simplemente
seleccionar el Nemotron 3 Ultra. Y una
vez seleccionado, pues ya le podéis
pedir cualquier cosa. Y por ejemplo,
podéis probarlo como ha hecho este
usuario, pidiéndole que os haga
simulaciones físicas en código HTML. Y
lo que nos dice es que para este tipo de
tareas, el Nemotron 3 Ultras ha rendido
el nivel de GPT 5.5, pero 10 veces más
barato. Nemotron 3 Ultra le ha costado
apenas 5 centavos, mientras que GPT 5.5
le ha costado pues algo más de medio dó.
Por lo que como os decía, es un modelo
muy prometedor, muy barato y que además
podemos disponer de él en nuestra propia
infraestructura. Si no eres una empresa
pequeña, quizás te salga a cuenta
disponer de un modelo como este en tus
servidores. Y ahora, fíjate en la
ironía. En Nvidia, la empresa que más
gana cada vez que alguien paga una
suscripción de inteligencia artificial,
publica un modelo que compite con esa
suscripción a una fracción del precio. Y
no es una empresa sola, es todo el
ecosistema. Google tiene a Gema, Alibaba
Queen, Envidia, Nemotron y alrededor de
cada uno hay una comunidad que construye
herramientas para hacerlos más fáciles y
accesibles. Y un ejemplo brutal de todo
esto es el último modelo del que te voy
a hablar hoy, Bernini, una contribución
de Bite Dens, sí, los que han creado
Sens 2, construidas sobre la base del
modelo open source de Alibaba One 2.2 y
que permite hacer lo mismo que promete
OVNI de Google, editar vídeos. Y en este
caso, lo mejor será acudir a la página
web de su GitHub para ver algunos
ejemplos de lo que este modelo puede
hacer. Nada más entrar, nos encontramos
con este vídeo de presentación donde
podemos ver ejemplos como este, añadir
elementos, cambiar el estado de ánimo
de, por ejemplo, un personaje, cambiar
el estilo o incluso cambiar el punto de
vista.
Podemos ver como también es una muy
buena herramienta para eliminar
elementos de un vídeo, en este caso un
personaje o en este otro caso uno de los
dos astronautas. Aquí vamos a ver cómo
simplemente desaparece uno de ellos y
también nos permite hacer cosas más
curiosas, como por ejemplo cambiar el
punto de foco de un vídeo. De aquí hemos
pasado de la taza a la radio. El
concepto, como os digo, es muy similar
al de OVNI de Google, es decir, tener un
modelo que sea muy bueno preservando los
elementos que nosotros queremos de un
vídeo y editando el resto. Y si visitáis
su GitHub, podréis ver un montón de
ejemplos más. ejemplos donde añaden
personajes, ejemplos donde cambian la
perspectiva, ejemplos donde cambian el
clima, la iluminación y en general pues
podréis ver todas las capacidades de
este modelo que realmente pinta muy pero
que muy bien. Y es que no solo permite
editar los vídeos directamente, sino que
también permite editarlo a partir de
referencias. Por ejemplo, añadir un
elemento a un vídeo a partir de una
imagen de referencia o sustituir un
elemento de un vídeo también a partir de
una imagen de referencia. Aquí podéis
ver más ejemplos. Echadle un vistazo
porque realmente es muy pero que muy
curioso. Y cada semana aparecen
versiones más ligeras, mejoras,
variaciones, tutoriales de todos estos
modelos. El open source es una máquina
que se retroalimenta continuamente.
Esta es la gran paradoja. Cada mes que
pagas una suscripción de inteligencia
artificial, también estás financiando la
investigación que produce el modelo que
alguien compartirá gratis el año que
viene. Por lo que da igual si hoy los
modelos que puedes ejecutar en tu PC aún
no son perfectos, aunque ya sean muy
útiles. Lo que importa es si estarás
preparado cuando lo sean. Y es que esto
es algo que conozco bien. Déjame
contarte mi historia. [música]
Antes de que existiera Chat GPT, yo ya
hacía vídeos sobre cómo ejecutar
inteligencia artificial en tu PC. Stable
Diffusion, Whisper, Automatic 1111. Mira
las fechas. Esto es de hace más de 3
años, cuando prácticamente nadie hablaba
de inteligencia artificial, al menos no
como se habla ahora. Entonces llegó Chat
GPT. Este fue el primer vídeo del canal
dedicado a Chat GPT. Mira justo el vídeo
anterior mostrándote mi PC para ejecutar
stable diffusion, pero lo dicho, llegó
Chat GPT y todo el interés se fue a la
nube. Las herramientas online gratuitas
que evolucionaron al pago de
suscripciones concentraron todo el
interés y la inteligencia artificial en
local pasó definitivamente a ser cosa de
cuatro frikis orgullosos y motivados con
GPUs caras. Bueno, siempre lo había
sido. 3 años después, la inteligencia
artificial en local ha vuelto con
fuerza, pero cada vez se parece menos a
lo que yo enseñaba. Lo que hacía en 2022
con Stable Difusion era artesanal,
lento, limitado, era muy curioso, pero
siendo sinceros, poco útil. Lo que acabo
de enseñarte hoy. Ideogram generando en
2K con control total sobre la
composición, gema procesando texto,
imagen y audio en tu portátil, Nemotron
compitiendo con GPT 5.5 es otra cosa que
se percibe muy diferente. La
inteligencia artificial en local es ya
una realidad, pero una realidad
incipiente. Los que me hicieron caso
hace 3 años y empezaron a tocar modelos
locales cuando nadie lo hacía, hoy
entienden cómo funciona esa tecnología.
Saben elegir un modelo, tienen intuición
y esa ventaja no se la dio ninguna
suscripción, se la dio el tiempo, tiempo
que ya no recuperan los que no
empezaron. Mi predicción es que los que
empiecen ahora van a tener en 2 años un
sistema propio adaptado a su trabajo que
funcionará sin depender de nadie y esto
llamará la atención de muchas empresas.
Los que esperen van a empezar desde cero
y como pasó con Chat GPT y el uso de la
inteligencia artificial en general
estarán desubicados y perdidos.
dependerán de los otros. Y la distancia
entre estos dos grupos no será de
dinero. La distancia real la marcará el
tiempo, la práctica y el conocimiento.
Si quieres empezar y no sabes por dónde,
en este vídeo te enseñé paso a paso cómo
instalar y ejecutar modelos en tu
ordenador.
Ask follow-up questions or revisit key timestamps.
Este video analiza cómo la inteligencia artificial "open source" está compitiendo directamente con los modelos de pago (como GPT, Claude o Gemini) y por qué ejecutar modelos de IA de forma local se está convirtiendo en una opción cada vez más viable, eficiente y privada. Se presentan herramientas como Ideogram 4 para generación de imágenes, el nuevo modelo Gema 4 de Google y otros ejemplos de la industria, argumentando que el futuro de la productividad personal reside en construir sistemas propios y autónomos en lugar de depender exclusivamente de suscripciones en la nube.
Videos recently processed by our community