Por Canuto  

Safe Super Intelligence (SSI), la empresa fundada por Ilya Sutskever tras dejar OpenAI, alcanzó una valoración de al menos USD $32.000 millones en su ronda más reciente. Mientras el equipo mantiene en secreto su tecnología, un conjunto de ideas resurgen como posible pista: alternativas a la backpropagación que prometen aprendizaje continuo, menos “olvido” y un enfoque más cercano a cómo aprendería el cerebro.
***

  • SSI, fundada por Ilya Sutskever tras dejar OpenAI, fue valorada en al menos USD $32.000 millones.
  • El debate técnico apunta al corazón del entrenamiento: la función de pérdida y el “credit assignment”.
  • Teorías como predictive coding y “prospective configuration” prometen aprender más rápido y con menos interferencia.

Hace cerca de dos años, Ilya Sutskever se alejó de OpenAI. Desde entonces, su nueva compañía, Safe Super Intelligence (SSI), ha operado con un nivel inusual de discreción. Aun así, la ronda de inversión más reciente le asigna una valoración de al menos USD $32.000 millones, un número que sugiere expectativas extraordinarias sobre lo que la empresa cree poder lograr.

El misterio es doble. Por un lado, SSI no ha explicado públicamente qué está construyendo. Por el otro, en el ecosistema de inteligencia artificial la diferencia entre “un modelo mejor” y “una forma distinta de entrenar modelos” puede ser abismal. En el video “Ilya Didn’t Leave OpenAI for Nothing”, el autor Pourya Kordi plantea que la pista podría estar en un problema estructural que la industria comenta poco: el algoritmo de aprendizaje.

Para el público que sigue criptomonedas, mercados y tecnología, este punto no es menor. La historia reciente muestra que un cambio de infraestructura suele redistribuir poder económico y ventajas competitivas. En IA, alterar el método de entrenamiento podría modificar costos, dependencia de hardware y ritmo de innovación, del mismo modo que un nuevo estándar en blockchain puede reorganizar incentivos y participantes.

El “problema masivo” detrás de la IA actual: aprender no es solo tener redes grandes

Las redes neuronales artificiales se inspiraron en neuronas reales, pero su forma de aprender no está “anclada” en la biología. Según el argumento presentado, incluso si aceptamos que el “neurón digital” es una aproximación razonable del neurón biológico, el asunto central es otro: cómo se inicializa y se entrena la red. En otras palabras, no basta con la arquitectura si el procedimiento que ajusta conexiones es deficiente.

La idea clave es que toda función útil se codifica en los patrones de conexión entre neuronas. En el cerebro, esas conexiones son sinapsis; en IA, son parámetros. La memoria, la dinámica de aprendizaje y la influencia de moduladores como la dopamina se expresan, en última instancia, en cómo cambian esas conexiones. Por eso, el algoritmo que ajusta parámetros no es un detalle técnico, sino el corazón del desempeño.

Hoy, la industria usa de forma generalizada backpropagation con gradient descent. Ese esquema combina dos elementos: una función de pérdida (loss) que mide qué tan errado es el resultado del modelo frente a un “ground truth”, y un mecanismo para repartir ese error y decidir cómo cambiar cada parámetro para reducir la pérdida. El mismo principio se extiende, con matices, a etapas posteriores al preentrenamiento, como aprendizaje por refuerzo con resultados verificables, donde la señal llega como recompensas diferidas.

El punto crítico es que este paradigma ha sido exitoso en términos de productos. Sin embargo, el video remarca que su desempeño todavía no se acerca al del cerebro, y que además entra en tensión con principios biológicos básicos. Ese choque motiva la búsqueda de alternativas, y ayuda a explicar por qué una empresa sin presión de producto, pero con fuerte financiamiento, puede apostar a una reingeniería del aprendizaje.

Dos obstáculos: función de pérdida y “credit assignment”

El primer reto es decidir qué debe optimizar el sistema. ¿Puede el cerebro estar optimizando un solo criterio? En modelos de lenguaje modernos, la función de pérdida más famosa es sorprendentemente simple: predecir el siguiente token. El video contrasta ese criterio con la hipótesis de que la evolución habría incorporado complejidad, múltiples “pérdidas” y hasta currículos de aprendizaje, activados por etapas del desarrollo.

En ese marco, se cita una conversación entre Ilya Sutskever y Adam Marblestone. Allí se menciona una intuición cercana a modelos basados en energía y a la idea de aprender una distribución conjunta de variables, con inferencia “omnidireccional”. En lugar de predecir solo una cosa desde otra, el sistema podría inferir subconjuntos de variables condicionados en otros, algo que permitiría, por ejemplo, predecir visión desde audición en áreas asociativas.

El segundo reto es el “credit assignment”: cómo decidir qué parámetros “tienen la culpa” del error y cómo cambiarlos para que ocurra el aprendizaje. Backpropagation resuelve esto calculando derivadas con respecto a parámetros, como en cálculo diferencial, y moviéndose en pequeños pasos para reducir la pérdida. Repetido miles de millones de veces, el sistema converge hacia configuraciones que funcionan para gran parte de los casos.

El problema, según el análisis, es que ese procedimiento choca con la biología en tres puntos. Se le acusa de ser extremadamente ineficiente, de operar en fases separadas (paso hacia adelante y luego paso hacia atrás) y de depender de una señal global de error, algo que no tendría un análogo directo en un cerebro descentralizado, donde neuronas tienen autonomía local y coordinación parcial mediante moduladores y ritmos.

Por qué backpropagation no se parece al cerebro: ineficiencia, fases y señal global

La primera crítica es eficiencia. Se argumenta que una persona puede aprender qué es un gato con pocas imágenes y generalizar a estilos y ángulos distintos. En cambio, un modelo con backpropagation suele requerir miles o millones de iteraciones, y aun así puede fallar ante variaciones no vistas. El contraste apunta a eficiencia de datos y robustez, dos factores que pesan directamente en costos de entrenamiento.

La segunda crítica es el tiempo discontinuo. En redes artificiales, el cálculo alterna entre propagación hacia adelante y propagación del error hacia atrás. Eso obliga a “congelar” activaciones para esperar la señal de error. En el video se compara con un apagón subsegundo cada vez que se aprende, algo que no ocurre en cerebros, donde aprendizaje y procesamiento sucederían de forma simultánea.

La tercera crítica es la dependencia de un control global. Backpropagation asume una señal de pérdida que recorre la red entera. En el cerebro, se sugiere, no hay un “centro” que compute una pérdida global y ajuste cada neurona como si fuera un parámetro subordinado. Existen mecanismos coordinadores, como neuromoduladores y oscilaciones, pero su acción sería local o poblacional, no un comando centralizado que optimiza toda la red.

Esta última crítica enlaza con un dolor conocido en IA: el aprendizaje continuo y el olvido. Si el sistema aprende de forma rígida una cosa nueva, puede destruir conocimientos previos. Resolverlo “de forma nativa” exigiría, según el video, un cambio de paradigma que unifique aprendizaje y procesamiento en un estado de red que evoluciona continuamente.

La pista: predictive coding y “prospective configuration” como alternativa

El video plantea que no es realista imaginar que alguien invente una teoría nueva de la noche a la mañana y la convierta en producto. La mayor parte de los sistemas de IA se sostiene sobre décadas de investigación acumulada. En ese sentido, se propone que predictive coding es una de las alternativas más prominentes que está recibiendo una nueva ola de interés debido a límites del paradigma actual.

La tesis descrita es simple: el objetivo del cerebro sería predecir información sensorial entrante. El aprendizaje sucede cuando la predicción no coincide con la entrada real. En vez de cambiar el “cableado” de inmediato, el sistema primero “imagina” un estado ideal que reconciliaría la brecha entre lo predicho y lo observado. Esa noción conecta con el “clamping” mencionado en la conversación citada: fijar parte de variables para inferir el resto.

En el enfoque llamado “prospective configuration”, en lugar de ajustar primero pesos, se ajusta primero la actividad neuronal. Es un contraste directo con backpropagation, que cambia el cableado para minimizar error. El video lo presenta como una negociación interna: antes de escribir un nuevo recuerdo en conexiones, el sistema se asegura de que la interpretación de la situación sea coherente.

La diferencia se ilustra con el ejemplo de un oso que visita un río. La vista del río predice sonido de agua y olor a salmón, y normalmente todo coincide. Pero un día el oso está temporalmente sordo: ve el río, huele salmón y no oye nada. Con backpropagation, se generaría un gran error que debilita conexiones asociadas al sonido, pero por compartir neuronas se debilitarían también asociaciones válidas, como agua y salmón. Eso puede causar interferencia catastrófica, donde aprender una cosa nueva destruye otra verdadera.

Resultados y límites: adaptación rápida, batch size 1 y el costo de simular dinámica

El video sostiene que backpropagation suele trabajar en lotes (batches). En la analogía, si una persona come una baya y se enferma, no necesita 32 bayas más para aprender que es mala. Sin embargo, el promedio del error en lotes se usa para suavizar el caos del entrenamiento. En contraste, el enfoque discutido funcionaría incluso con batch size de 1, lo que sugiere aprendizaje más inmediato.

Se mencionan comparaciones de simulación donde “prospective configuration” se desempeña bien. Un ejemplo es un semáforo en el que de pronto rojo significa avanzar. Según el relato, este método se adapta más rápido a cambios de regla sin arruinar la visión general aprendida. El punto central es preservar conocimientos previos mientras se integra información nueva y contradictoria.

Otro experimento destacado es el de la palanca: participantes humanos movían un mango robótico hacia un objetivo, mientras fuerzas invisibles desviaban la trayectoria. Se entrenaron dos contextos fuertes, fondo rojo y azul, donde rojo empujaba usualmente a la izquierda y azul a la derecha. Luego se invirtió el contexto: rojo debía empujar a la derecha. Los humanos reconciliaron rápido la contradicción y aprendieron el nuevo mapeo, confiando en la fuerza invisible por sobre la señal visual.

En la misma tarea, se afirma que backpropagation falló, “atrapado” en la asociación superficial de que rojo equivale a izquierda. En cambio, “prospective configuration” habría replicado el comportamiento humano. Aun así, el video enfatiza que esto no “resuelve” por completo el aprendizaje, porque el método requiere simulación explícita, tratándolo como un sistema basado en energía que se relaja hacia un estado de bajo error.

Ese requisito tiene un costo: hoy podría ser hasta cinco veces más caro que backpropagation, no por ineficiencia intrínseca, sino porque las GPU actuales están optimizadas para operaciones matemáticas rápidas, no para simular dinámica física. Se menciona una propuesta de circuito analógico que sería más eficiente, pero también se advierte que la economía para adoptar arquitecturas radicalmente nuevas aún no está madura.

En ese contexto competitivo, el reto se vuelve de ingeniería: integrarlo a pipelines existentes, correrlo en hardware actual y escalarlo a conjuntos de datos masivos, mientras otros laboratorios avanzan con LLM tradicionales. El video “Ilya Didn’t Leave OpenAI for Nothing”, de Pourya Kordi, cierra con una tesis: SSI, por ser una compañía enfocada en investigación, sin restricciones de producto y con capital significativo, podría ser un “dark horse”. Y su fundador parecería convencido de que ya tiene una solución, aunque todavía no la muestre.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín