Por Canuto  

Yann LeCun volvió a desafiar el consenso dominante en inteligencia artificial con una apuesta de USD $1.000 millones a favor de JEPA, una arquitectura que busca reemplazar la generación de texto por modelos capaces de aprender representaciones del mundo y anticipar consecuencias. Su tesis es frontal: los LLM son poderosos para manipular lenguaje, pero insuficientes para construir sistemas agenticos confiables.
***

  • Yann LeCun sostiene que los LLM destacan en lenguaje, pero carecen de verdaderos modelos del mundo para planificar acciones.
  • La arquitectura JEPA propone predecir embeddings en vez de píxeles o tokens, con el objetivo de aprender representaciones más útiles.
  • El avance de métodos como Barlow Twins, VICReg y DINO reforzó la visión de LeCun sobre aprendizaje autosupervisado en visión y robótica.


Yann LeCun, una de las figuras más influyentes en la historia del aprendizaje profundo, volvió a colocarse en el centro del debate sobre el futuro de la inteligencia artificial. Su postura es incómoda para buena parte de Silicon Valley: los grandes modelos de lenguaje, o LLM, no serían el camino definitivo hacia sistemas inteligentes capaces de actuar con fiabilidad en el mundo real.

En Yann LeCun’s $1B Bet Against LLMs, publicado por Welch Labs, se expone la lógica detrás de esa apuesta. El eje de la discusión es JEPA, siglas de joint embedding predictive architecture, un marco alternativo para entrenar IA que no se basa en generar texto, imágenes o video, sino en aprender representaciones y predecir su evolución.

La idea central rompe con el patrón dominante de la última ola de IA. Mientras los LLM reciben un texto de entrada y aprenden a predecir el siguiente token, JEPA toma una entrada X y una salida Y, las pasa por encoders separados y entrena un predictor para anticipar el embedding de Y a partir del embedding de X.

Para LeCun, este enfoque hoy resuelve problemas distintos, pero a largo plazo podría reemplazar a los LLM. Su diagnóstico es tajante: esos modelos son muy buenos manipulando lenguaje, pero básicamente nada más. En su visión, funcionan bien cuando el propio lenguaje sirve como sustrato del razonamiento, aunque no ofrecen por sí solos una comprensión operativa del entorno físico.

Del aprendizaje supervisado a la búsqueda de representaciones

La posición de LeCun no surgió de la nada. Ya en la década de 1980, cuando gran parte del campo apostaba por sistemas expertos programados de forma explícita, él impulsó las redes neuronales convolucionales. Décadas después, con el auge del deep learning, modelos como AlexNet retomaron principios muy cercanos a esas ideas iniciales.

Sin embargo, el avance de la visión por computadora durante la década de 2010 dejó una limitación clara. Modelos como AlexNet dependían de grandes volúmenes de datos etiquetados por humanos, como ImageNet. Para LeCun y otros investigadores, esa dependencia era un cuello de botella, sobre todo al compararla con la capacidad de los niños para aprender conceptos generales con muy pocos ejemplos explícitamente rotulados.

En ese contexto crecieron dos alternativas. Una fue el aprendizaje por refuerzo, que ganó visibilidad con los avances de DeepMind en videojuegos Atari y en Go. La otra fue el aprendizaje no supervisado y, más concretamente, el autosupervisado, donde las etiquetas se extraen del propio dato.

LeCun resumió esa visión con una frase que se volvió célebre en la comunidad. Si la inteligencia fuera un pastel, dijo, la mayor parte sería aprendizaje autosupervisado, el glaseado sería aprendizaje supervisado y la cereza sería aprendizaje por refuerzo. Su argumento era que el aprendizaje por refuerzo, por sí solo, era demasiado ineficiente para acercarse a la inteligencia animal o humana.

Por qué los LLM despegaron antes que la visión

El éxito del aprendizaje autosupervisado llegó antes en lenguaje que en modalidades como visión o video. La transición fue acelerada por el uso de transformadores y por una modificación decisiva impulsada en OpenAI por Alec Radford y otros investigadores: en vez de traducir texto entre idiomas, el modelo se entrenó para predecir el siguiente token dentro de una secuencia.

Ese esquema dio lugar a GPT-1. Primero se realizaba un preentrenamiento autosupervisado con grandes colecciones de texto y luego un ajuste supervisado sobre tareas concretas. Según el repaso presentado por Welch Labs, el modelo logró resultados de referencia en nueve benchmarks de lenguaje y abrió la puerta a un escalamiento sin precedentes.

La evolución posterior fue conocida: GPT-2 en 2019, GPT-3 en 2020 y ChatGPT en 2022. El salto de escala fue gigantesco. AlexNet había sido entrenado con cerca de un millón de ejemplos, mientras GPT-3 utilizó cientos de miles de millones. Para LeCun, esa secuencia confirmó una intuición previa sobre el valor del preentrenamiento autosupervisado.

Pero el mismo principio no funcionó igual de bien en video. Intentar predecir el siguiente cuadro, píxel por píxel, producía imágenes borrosas. El problema se agravaba cuando la predicción era autorregresiva, es decir, cuando cada cuadro generado se reutilizaba como entrada para producir el siguiente.

El problema de la borrosidad y el límite de lo generativo

La razón de fondo es la incertidumbre. En lenguaje, un modelo dispone de un vocabulario fijo y puede repartir probabilidades entre miles de tokens discretos. En video, el espacio de posibles salidas es inmensamente mayor. Un cuadro de video en alta definición implica una combinación descomunal de valores de píxeles, muy superior a cualquier enumeración práctica.

Cuando el modelo debe predecir directamente intensidades de píxeles y el futuro no es único, tiende a promediar escenarios posibles. Si una pelota puede rebotar a la izquierda o a la derecha, el promedio visual de ambos desenlaces es una mancha borrosa. Ese efecto explica por qué muchos enfoques generativos aplicados a video resultaron poco útiles para aprender representaciones robustas.

Ese fracaso llevó a LeCun y a otros investigadores a formular otra pregunta. Tal vez el objetivo no debía ser reconstruir fielmente todos los detalles de una escena, sino aprender las características relevantes que permiten entenderla. En esa lógica, generar contenido sería un medio secundario, no el corazón del sistema.

Allí reapareció una línea de investigación en la que LeCun también había trabajado desde los años noventa: las arquitecturas de embeddings conjuntos. Antes se las conocía como redes siamesas y fueron usadas, entre otras cosas, para detectar firmas fraudulentas en Bell Labs.

De las redes siamesas a Barlow Twins

El principio de esas redes era elegante. Dos copias del mismo modelo procesaban pares de entradas y producían vectores de embedding. Si ambas entradas pertenecían a la misma clase semántica, como dos firmas auténticas de la misma persona, los embeddings debían ser similares. Si una era fraudulenta, debían separarse.

Trasladado a visión, el método permitía tomar una imagen y una versión transformada o degradada de esa misma imagen para obligar al sistema a generar representaciones parecidas. El objetivo era capturar el contenido semántico y no detalles accidentales. Pero el esquema enfrentaba una trampa: el colapso de representación.

Ese colapso ocurre cuando la red aprende a devolver siempre el mismo vector, sin importar la entrada. Así maximiza similitud entre vistas relacionadas, pero no aprende nada útil. Una forma clásica de evitarlo fue el aprendizaje contrastivo, que introduce ejemplos positivos y negativos. El problema es que, al escalar, puede exigir mucha computación y una gran cantidad de muestras negativas.

La salida llegó con un giro conceptual. LeCun atribuye una epifanía al trabajo de su equipo en Meta y, en particular, al aporte de Stéphane Deny, inspirado por una hipótesis del neurocientífico Horace Barlow. La idea consistía en reducir la redundancia entre neuronas de salida mientras se mantenía alta la correlación entre neuronas correspondientes de dos vistas de la misma imagen.

De ahí nació Barlow Twins. El método construye una matriz de correlación cruzada entre las salidas de dos encoders y optimiza para que esa matriz se acerque a la identidad: diagonal alta y elementos fuera de la diagonal cercanos a cero. Con ello, evita el colapso y favorece representaciones informativas.

Los resultados fueron relevantes. Un encoder congelado entrenado con Barlow Twins y evaluado mediante una sonda lineal alcanzó 73,2% de precisión en ImageNet, por encima del 59,3% logrado por el AlexNet original. Aun así, seguía por debajo de modelos supervisados más avanzados. En 2020, un equipo de Google había reportado 88,6% en esa misma referencia usando transformadores aplicados a clasificación de imágenes.

VICReg, DINO y el giro hacia modelos de mundo

La historia no terminó ahí. LeCun señaló que después de Barlow Twins llegó una versión simplificada llamada VICReg. En paralelo, otro grupo en FAIR Paris desarrolló la línea DINO, que avanzó por varias iteraciones. Según el video, DINO v3, publicado en agosto de 2025, alcanzó 88,4% en ImageNet, un nivel muy cercano al estado del arte y comparable al de métodos débilmente supervisados.

Más allá del porcentaje, el punto importante era la calidad de las representaciones. DINO genera embeddings por parches de imagen y permite segmentar elementos como una mano, una pelota, un gato o un libro comparando similitudes en el espacio latente. Para LeCun, eso reforzaba la idea de que el aprendizaje por embeddings conjuntos era superior para aprender representaciones visuales sin etiquetas humanas.

Con ese telón de fondo, en 2022 publicó su extenso documento de posición A Path Towards Autonomous Machine Intelligence. Allí planteó que la gran pieza faltante de la IA contemporánea son los modelos de mundo, es decir, sistemas capaces de anticipar qué es probable, plausible o imposible en el entorno físico.

Su ejemplo favorito es la conducción. Según expone, un adolescente puede aprender a conducir en unas 20 horas, mientras que sistemas de conducción autónoma consumen millones de horas de datos sin alcanzar niveles superiores de desempeño. La clave, a su juicio, no está solo en ver más datos, sino en formar modelos internos que permitan entender consecuencias, razonar y planificar.

Qué propone JEPA y por qué LeCun cree que superará a los LLM

JEPA toma esa intuición y la convierte en arquitectura. En vez de predecir el siguiente cuadro de video a nivel de píxel, codifica el estado actual y el siguiente estado en embeddings. Luego entrena un predictor para anticipar el embedding futuro a partir del embedding presente. Si se agregan acciones al proceso, el sistema se convierte en un modelo de mundo utilizable para control y planificación.

LeCun usa un ejemplo simple para justificar el enfoque. Un modelo generativo aplicado a video de conducción puede gastar enormes recursos intentando predecir el movimiento aleatorio de las hojas de los árboles al borde del camino, aunque eso no sea importante para la tarea. JEPA, en cambio, debería concentrarse en los rasgos salientes que sobreviven al encoder.

El video también describe una aplicación en robótica asociada a V-JEPA 2. Allí, el modelo observa secuencias de imágenes de un brazo robótico y recibe además las señales de control enviadas al brazo. Con esa información aprende a predecir cómo esas acciones modificarán el estado visual embebido del sistema.

Ese modelo aprendido puede usarse luego para planificación. Si se define un estado objetivo, como mover una taza fuera de una plataforma, el sistema codifica ese objetivo en un embedding y busca secuencias de acciones hipotéticas que lleven el estado futuro predicho hacia esa meta. LeCun subraya que la idea tiene raíces en el control óptimo clásico de finales de los años cincuenta y principios de los sesenta. La novedad es aprender tanto la representación como el modelo mediante machine learning.

Su conclusión es la más polémica. Para construir sistemas agenticos fiables, afirma, no basta con producir respuestas autorregresivas. Un agente debe predecir las consecuencias de sus acciones antes de ejecutarlas. De lo contrario, no puede planificar ni ofrecer garantías razonables de seguridad. En esa diferencia ubica la limitación estructural de los LLM y la promesa de los modelos de mundo.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín