Un nuevo trabajo académico en arXiv plantea que la auto-destilación puede habilitar aprendizaje continuo a partir de demostraciones, buscando reducir el “olvido catastrófico” que aparece cuando los modelos se ajustan con técnicas supervisadas tradicionales. La propuesta, llamada Self-Distillation Fine-Tuning (SDFT), intenta convertir datos de expertos en una señal de entrenamiento “on-policy” sin necesidad de diseñar recompensas explícitas.
***
- El paper propone SDFT para aprender de demostraciones con actualizaciones on-policy, usando al mismo modelo como maestro y estudiante.
- Los autores sostienen que SDFT supera al fine-tuning supervisado (SFT) al mejorar el rendimiento en nuevas tareas y reducir el olvido catastrófico.
- El trabajo enmarca a SDFT como alternativa práctica cuando no hay recompensas explícitas, evitando depender de enfoques tipo RL o IRL.
Un problema central: aprender sin olvidar
El aprendizaje continuo, entendido como la capacidad de un modelo para adquirir nuevas habilidades y conocimiento sin degradar capacidades previas, sigue siendo un desafío clave para los modelos fundacionales, según un trabajo publicado en arXiv el 27 de enero de 2026. Los autores enmarcan el problema como una brecha entre la adaptación deseada tras el despliegue y la realidad de sistemas que, en la práctica, quedan “estáticos” una vez entrenados.
El documento plantea que los modelos sí pueden “adaptarse” a nivel de inferencia mediante técnicas como recuperación de información o prompting. Sin embargo, esa adaptación no actualiza parámetros, por lo que no equivale a aprender nuevas habilidades o a internalizar conocimiento de forma persistente. En ese sentido, el objetivo del aprendizaje continuo es permitir que el sistema mejore con el tiempo, de forma más parecida a como las personas acumulan competencias.
En este marco, los autores contrastan dos grandes familias de entrenamiento: enfoques on-policy y off-policy. La tesis de fondo es que aprender a partir de datos generados por la política actual del modelo reduce el olvido catastrófico frente a alternativas que entrenan sobre una distribución fija y offline. A partir de ahí, el trabajo busca llevar la ventaja del on-policy hacia un entorno donde predominan las demostraciones de expertos.
El dilema es práctico y frecuente. Aunque el aprendizaje por refuerzo on-policy puede reducir el olvido, suele requerir funciones de recompensa explícitas, que muchas veces no existen o son difíciles de especificar. Por el contrario, aprender con demostraciones es una alternativa común, pero está dominada por el fine-tuning supervisado, que el paper caracteriza como inherentemente off-policy.
Por qué el fine-tuning supervisado (SFT) tropieza en aprendizaje continuo
El trabajo describe que el supervised fine-tuning (SFT) busca imitar demostraciones a partir de un dataset offline. Esa naturaleza off-policy, sostienen los autores, favorece fallas bien conocidas cuando se ajusta un modelo secuencialmente en tareas o dominios nuevos. Entre esas fallas aparece el olvido catastrófico, en el cual la mejora en una tarea nueva se paga con la degradación de capacidades generales o habilidades aprendidas antes.
En términos intuitivos, el problema surge porque el modelo se entrena con un conjunto de estados o ejemplos que no coincide con lo que encontrará cuando actúe por su cuenta. En ese escenario, pequeños errores se acumulan, y el comportamiento se “sale” de la distribución cubierta por las demostraciones. El paper conecta este punto con literatura previa sobre imitación y el fenómeno de errores compuestos.
Los autores también discuten una salida teórica: primero inferir recompensas desde demostraciones mediante inverse reinforcement learning (IRL), y luego ejecutar aprendizaje por refuerzo on-policy. Aun así, el texto subraya que la IRL suele exigir supuestos fuertes sobre la estructura de la recompensa, lo que limita su adopción práctica. Además, el escalamiento de IRL tradicional aparece como un obstáculo en muchos casos reales.
En el contexto de modelos fundacionales, el mensaje central es que el sector necesita un mecanismo que permita actualizaciones on-policy, pero que parta de demostraciones en lugar de recompensas diseñadas. Sobre esa necesidad se construye la propuesta principal del paper: Self-Distillation Fine-Tuning (SDFT).
SDFT: auto-destilación para convertir demostraciones en señal on-policy
El trabajo introduce SDFT como un método “simple” que habilita aprendizaje on-policy directamente desde demostraciones. La idea se apoya en la capacidad de in-context learning de los modelos grandes. Con esa capacidad, el mismo modelo puede modificar su salida cuando se le condiciona con ejemplos, sin que exista un cambio de parámetros en ese momento.
En el esquema de SDFT, el modelo actúa en dos roles para cada consulta. Como estudiante, responde condicionado solo por el prompt de la tarea. Como maestro, es el mismo modelo, pero condicionado adicionalmente por una demostración experta elegida para esa consulta. El paper describe al maestro como una versión “aware” de la demostración, capaz de producir una distribución de salida distinta para el mismo input.
La pieza técnica clave es que el entrenamiento ocurre sobre trayectorias generadas por el estudiante, no por el maestro. El objetivo es minimizar una divergencia KL inversa entre la distribución del estudiante y la del maestro, de modo que el estudiante aprenda señales de la demostración en un régimen on-policy. En palabras del propio marco del paper, se busca preservar capacidades previas mientras se adquieren nuevas habilidades.
Para construir el maestro, el documento muestra un prompt simple que incluye la pregunta, un ejemplo de respuesta, y luego solicita una respuesta propia “incluyendo el proceso de pensamiento”. Los autores señalan que ese prompt ayuda a evitar que el modelo copie la demostración de forma literal, y en su lugar refleje la intención detrás del ejemplo, aprovechando su in-context learning.
Evaluaciones: habilidades, adquisición de conocimiento y aprendizaje secuencial
El paper indica que evalúa SDFT en dos configuraciones de aprendizaje continuo. La primera es aprendizaje de habilidades, donde las demostraciones buscan mejorar el rendimiento en una tarea. La segunda es adquisición de conocimiento, donde el objetivo es incorporar nueva información dentro del modelo.
De acuerdo con el resumen del trabajo, SDFT supera de forma consistente al SFT, con mayor precisión en tareas nuevas y una reducción sustancial del olvido catastrófico. El texto insiste en el contraste entre on-policy y off-policy como explicación del resultado. En particular, presenta a SDFT como una forma de obtener actualizaciones estables on-policy sin recompensas explícitas.
Además, el documento afirma que SDFT mejora la generalización tanto dentro como fuera de distribución. Esto lo vuelve relevante incluso cuando retener capacidades previas no es el objetivo principal, según el propio paper. La conexión con resultados previos sobre on-policy aparece como argumento complementario para respaldar esa ganancia de generalización.
En un experimento de aprendizaje secuencial, el trabajo sostiene que un solo modelo puede acumular tres habilidades distintas en el tiempo sin regresión de desempeño. En esa misma línea, los autores afirman que el método preserva rendimiento en habilidades aprendidas previamente y también en capacidades “no relacionadas” que ya existían en el modelo. Con esto, buscan respaldar la conclusión de que el aprendizaje continuo desde demostraciones es posible.
Implicaciones y límites del enfoque, según el propio paper
A nivel conceptual, SDFT se ubica cerca de la destilación y de la context distillation, donde un modelo condicionado por información extra enseña a una variante sin esa información. El paper diferencia su propuesta porque la destilación es on-policy, ya que entrena bajo la distribución de trayectorias inducida por el estudiante. También recalca que el contexto del maestro no es un prefijo fijo, sino una demostración específica seleccionada para cada consulta.
El texto sugiere que esta elección “dinámica” permite expresar intención de tarea con mayor granularidad, en vez de imponer un prior global único. En conjunto, el documento presenta el método como una vía práctica que se parece, en espíritu, a extraer señales subyacentes de las demostraciones sin construir recompensas explícitas. Esa característica apunta a casos donde el diseño de rewards es costoso o inviable.
Para el lector que sigue los mercados de IA, el interés de este tipo de propuestas es que conectan directamente con el ciclo de vida de modelos desplegados. Si el aprendizaje continuo se vuelve confiable, el valor comercial de un modelo no dependería solo de su preentrenamiento, sino de su capacidad para incorporar conocimiento y habilidades sin degradación, a medida que cambian las necesidades del entorno y los usuarios.
En el terreno de criptomonedas y fintech, aunque el paper no trata sobre blockchain, la discusión es relevante por analogía. Sistemas de monitoreo de fraude, análisis de riesgo, o asistencia de trading suelen enfrentar datos no estacionarios y cambios de régimen. Un método que reduzca el olvido al adaptar modelos a nuevas condiciones podría impactar flujos de trabajo donde hoy se reentrena con cautela para evitar degradaciones imprevistas.
Por ahora, la contribución del trabajo es una propuesta metodológica con resultados reportados por sus autores. La validación independiente y la adopción práctica dependerán de replicaciones, disponibilidad real de código y datasets, y pruebas en escenarios de producción. Aun así, el paper coloca un mensaje claro: la auto-destilación on-policy desde demostraciones podría ser una ruta viable para el aprendizaje continuo en modelos fundacionales.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
Agentes de IA ahora transaccionan entre diferentes Blockchains sin custodia gracias a deBridge
Meta contempla añadir funciones de reconocimiento facial en sus lentes inteligentes
El CEO de Anthropic advierte: un año de error en el boom de la IA puede llevar a la quiebra