Por Canuto  

Un estudio reciente propone TRM, una red diminuta de solo dos capas y aproximadamente 7 millones de parámetros, que logra generalizar mejor que modelos jerárquicos y que supera a muchos LLMs en tareas de rompecabezas complejos como Sudoku-Extreme, Maze-Hard y ARC-AGI, con un enfoque más sencillo y eficiente.

***

  • TRM, una única red diminuta de 2 capas y ‘parámetros 7.000.000’, alcanza 87,4% en Sudoku-Extreme y 85,3% en Maze-Hard.
  • El trabajo compara TRM con HRM (27 millones de parámetros) y LLMs comerciales; TRM mejora la generalización eliminando jerarquías y teoremas complejos.
  • Los autores, encabezados por Alexia Jolicoeur-Martineau (Samsung SAIL Montréal), publicaron el informe en arXiv, mostrando menores requisitos de datos y cómputo para tareas difíciles.

Un equipo de investigación liderado por Alexia Jolicoeur-Martineau, afiliada a Samsung SAIL Montréal, propone Tiny Recursive Model (TRM), una aproximación de razonamiento recursivo que utiliza una sola red diminuta para resolver problemas de alta dificultad con datos y parámetros muy limitados.

Según el informe publicado en arXiv, TRM consigue generalizar mejor que modelos jerárquicos previos en tareas como Sudoku-Extreme, Maze-Hard y ARC-AGI, aun con ‘parámetros 7.000.000’ y aproximadamente 1.000 ejemplos de entrenamiento en algunos conjuntos.

El enfoque cuestiona la necesidad de estructuras complejas: sustituye la doble red y los argumentos biológicos del modelo HRM por una red de dos capas, supervisión profunda y recursión explícita, simplificando tanto la teoría como la implementación.

Motivación

Los grandes modelos de lenguaje (LLMs) han mostrado limitaciones en tareas de resolución de problemas cerrados, donde un solo token erróneo puede invalidar toda la respuesta. Para mitigar esto, técnicas como chain-of-thought (CoT) y test-time compute (TTC) han sido usadas, pero con costos elevados en datos y cómputo.

Wang et al. introdujeron el Hierarchical Reasoning Model (HRM), que utiliza dos redes recurrentes a diferentes frecuencias y supervisión profunda para razonar recursivamente; HRM alcanzó resultados notables en rompecabezas, pero con una arquitectura compleja y ‘parámetros 27.000.000’.

El nuevo trabajo parte de esa base y plantea que la ganancia real proviene de la recursión supervisada más que de la jerarquía o de justificaciones biológicas, lo que abre la posibilidad de soluciones mucho más simples y eficientes.

Para lectores no expertos: la recursión aquí significa re-evaluar la misma representación latente múltiples veces, permitiendo que la red refine su solución paso a paso, sin aumentar la profundidad del modelo mediante más capas.

Diseño de HRM frente a TRM

HRM incluye cuatro componentes aprendibles: una incrustación de entrada, una red recurrente de bajo nivel, una de alto nivel y una cabeza de salida; cada red era un transformer de 4 capas con normalización RMS y activación SwiGLU.

El protocolo de HRM recurre entre las dos redes a frecuencias distintas y recurre a aproximaciones teóricas como el teorema de la función implícita (IFT) para justificar la retropropagación con un paso de gradiente en el punto fijo supuesto.

TRM elimina esta complejidad. Según los autores, basta con una sola red diminuta de dos capas que se recurre sobre su propio latente, aplica supervisión profunda y retropropagación completa donde corresponda; no se requiere IFT ni múltiples redes jerárquicas.

Además, TRM ajusta otras decisiones prácticas: cambia la autoatención por una MLP para contextos cortos cuando corresponde, evita una segunda pasada extra para el mecanismo de detención adaptativa y emplea EMA para estabilizar el aprendizaje en conjuntos pequeños.

Detalles técnicos y hallazgos clave

TRM demuestra que menos parámetros y menor complejidad pueden mejorar la generalización: la versión sin atención alcanza 87,4% en Sudoku-Extreme, mientras que la variante con atención alcanza 85,3% en Maze-Hard, 44,6% en ARC-AGI-1 y 7,8% en ARC-AGI-2.

En contraste, HRM con ‘parámetros 27.000.000’ reportaba 55,0% en Sudoku-Extreme y 74,5% en Maze-Hard, por lo que TRM reduce a la mitad o menos la cantidad de parámetros y mejora métricas clave.

Los autores experimentaron también con la arquitectura de longitud fija: en Sudoku-Extreme una MLP sobre la secuencia superó a la autoatención (mejorando la precisión de prueba desde 74,7% hasta 87,4%), pero para tareas con contextos extensos como Maze-Hard y ARC-AGI la atención mostró ventajas inductivas.

Otras prácticas efectivas fueron la eliminación de la pasada de continuación de ACT, el uso de media móvil exponencial (EMA) para los pesos y la optimización cuidadosa del número de recursiones (por ejemplo, T=3, n=6 en TRM para Sudoku-Extreme).

Resultados empíricos y comparación con LLMs

TRM, con ‘parámetros 7.000.000’, supera a la mayoría de modelos de lenguaje probados por los autores, incluyendo referencias como Deepseek R1, o3-mini y Gemini 2.5 Pro, pese a tener menos del 0,01% de sus parámetros, según el documento.

En Sudoku-Extreme el avance fue notable: TRM llevó el estado del arte de 55% a 87% de precisión de prueba. En Maze-Hard la mejora fue de 75% a 85% en algunas configuraciones, y en ARC-AGI-1 y ARC-AGI-2 los saltos fueron modestos pero significativos para el tamaño del modelo (45% y 8% respectivamente en resultados reportados).

Los conjuntos de datos usados incluyen Sudoku-Extreme (muestras 1.000 en entrenamiento y 423.000 en prueba), Maze-Hard (muestras 1.000 de entrenamiento y 1.000 de prueba) y los desafíos ARC-AGI, diseñados para ser fáciles para humanos y difíciles para modelos actuales.

Lmitaciones, implicaciones y conclusiones

Los autores son explícitos: TRM no es una solución universal. Reemplazar atención por MLP ayudó en Sudoku-Extreme pero no en todas las tareas; elegir arquitectura y recursiones adecuadas sigue siendo dependiente del problema.

El trabajo plantea preguntas todavía abiertas: ¿por qué la recursión ayuda tanto frente a redes más grandes y profundas? Los autores reconocen que la explicación teórica completa falta y que algunos componentes del método podrían ser subóptimos.

En términos prácticos, TRM sugiere que para ciertas tareas supervisadas de razonamiento profundo es posible invertir la tendencia de escalamiento masivo, obteniendo mejor generalización con modelos compactos y técnicas de recursión y supervisión profundas.

Para la comunidad de investigación en IA aplicada a finanzas y blockchain, el mensaje es relevante: soluciones eficientes y de bajo costo computacional pueden rendir en problemas estructurados, abriendo la puerta a despliegues más económicos y responsables.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín