Por Canuto  

Un desarrollador presentó TinyRouter, un coordinador de apenas 10.000 parámetros que decide qué modelo abierto debe responder cada pregunta y bajo qué rol. El experimento, inspirado en una reconstrucción de la arquitectura de enrutamiento atribuida a Skana AI, sugiere que una capa mínima de orquestación puede mejorar el rendimiento promedio sin necesidad de entrenar un nuevo modelo de frontera.
***

  • TinyRouter usa un codificador congelado de 0.6B y una cabeza de unos 10.000 parámetros para enrutar preguntas entre tres modelos abiertos.
  • En pruebas retenidas, empató con el mejor modelo en matemáticas y lo superó en promedio conjunto gracias a su ventaja en MMLU.
  • El proyecto reportó un costo base de apenas USD $20,89 para replicación y evaluación rigurosa, más gastos adicionales para diagnósticos y mejoras.


La carrera por construir mejores sistemas de inteligencia artificial suele centrarse en modelos cada vez más grandes, más caros y más complejos. Sin embargo, una nueva réplica experimental sugiere que parte de la ventaja podría estar no en entrenar otro modelo, sino en decidir con más inteligencia cuál modelo debe responder cada consulta.

Ese es el planteamiento detrás de TinyRouter, un proyecto presentado por @HarshalsinghCN, quien explicó que realizó ingeniería inversa de la arquitectura de enrutamiento detrás de Fugu de Skana AI y construyó una replicación para modelos de frontera abierta.

El sistema es pequeño en términos poco habituales para el ecosistema de modelos de lenguaje. Según la documentación publicada por su creador, se trata de un router LLM de alrededor de 10.000 parámetros que aprende qué modelo usar y qué papel debe desempeñar para cada pregunta.

La idea central no es que el router resuelva los problemas directamente. Su función consiste en actuar como coordinador y decidir a cuál de tres modelos abiertos enviar cada consulta, además de asignarle un rol específico dentro del proceso.

El resultado más llamativo es que este coordinador diminuto logró un promedio de 0,858 entre dos tareas evaluadas, una marca superior a la obtenida por cualquiera de los modelos individuales usados como base. La mejora, no obstante, aparece sobre todo cuando existen diferencias claras entre los modelos del conjunto.

Cómo funciona TinyRouter y qué problema intenta resolver

TinyRouter fue diseñado como un coordinador deliberadamente pequeño y barato. Su arquitectura combina un codificador congelado de 0.6B de parámetros, que transforma cada pregunta en un vector de 1.024 dimensiones, con una cabeza de enrutamiento de unos 10.000 parámetros que convierte ese vector en una decisión.

Esa decisión incluye dos variables. La primera es cuál de tres modelos abiertos debe responder la consulta, y la segunda es qué rol debe desempeñar ese modelo dentro de la interacción.

Los tres roles definidos en el sistema son Pensador, Trabajador y Verificador. En la práctica, el modelo seleccionado responde bajo uno de esos papeles y su salida se agrega a una transcripción que puede extenderse hasta cinco turnos.

El ciclo termina antes si aparece un turno de Verificador que acepta la respuesta y cierra el proceso. Después de eso, el resultado final se califica como correcto o incorrecto, y esa recompensa binaria impulsa el entrenamiento del coordinador.

El método, según el repositorio del proyecto, sigue el enfoque de TRINITY, de Xu y otros autores, reconstruido desde cero con un conjunto de modelos de código abierto servidos a través de Fireworks AI. En otras palabras, el sistema no entrena un nuevo modelo generalista, sino una capa de orquestación encima de modelos ya existentes.

Ese matiz es importante porque cambia la lógica económica del experimento. El creador del proyecto remarcó, en respuestas públicas sobre el costo, que no entrenaron su modelo, sino el router.

Los modelos usados, el entrenamiento evolutivo y la lógica del enrutamiento

El conjunto de modelos se compone de tres opciones con fortalezas diferentes. El slot A corresponde a deepseek-v4-pro, descrito como fuerte en conocimiento o MMLU; el slot B es glm-5p2, señalado como fuerte en matemáticas; y el slot C es kimi-k2p6, definido como generalista.

El codificador de 0.6B y el ciclo de evolución corren en una sola NVIDIA H200. Los tres LLM son llamados mediante HTTP, lo que permite separar el pequeño coordinador del costo de inferencia de los modelos externos.

Para entrenar la cabeza del router, el proyecto utilizó sep-CMA-ES, una estrategia de evolución separable y sin derivadas. La lógica es simple en apariencia: generar miles de cabezas candidatas, conservar las que mejor enrutan y repetir el proceso.

El criterio de recompensa también fue austero. El evaluador automático asigna una salida binaria de correcto o incorrecto, usando coincidencia exacta en matemáticas y coincidencia de letras en MMLU.

Ese enfoque refuerza una tesis interesante dentro del debate actual sobre IA aplicada. Si varios modelos ya existen y tienen fortalezas distintas, la ventaja competitiva podría provenir de una capa externa que sepa distribuir bien las preguntas, en vez de crear desde cero un modelo todavía más costoso.

El propio autor sugirió que la receta es escalable. Al responder a preguntas sobre la posibilidad de superar sistemas comparables, indicó que el punto es que la receta sigue siendo la misma y que solo habría que escalarla con más cómputo y mejores modelos.

Resultados: ventaja clara en promedio, pero no en todas las tareas

La evaluación rigurosa se hizo con 120 preguntas retenidas por tarea. Además, cada línea base de modelo único fue promediada sobre tres ejecuciones para reducir el ruido asociado a la variabilidad de ejecución.

En matemáticas, glm-5p2 obtuvo 0,794 y fue el mejor modelo individual. TinyRouter registró 0,792, exactamente igual al enrutamiento aleatorio y por encima de deepseek-v4-pro con 0,747 y kimi-k2p6 con 0,742.

En MMLU, el panorama cambió de forma importante. TinyRouter logró 0,925, por encima de deepseek-v4-pro con 0,922, del enrutamiento aleatorio con 0,875, de glm-5p2 con 0,783 y de kimi-k2p6 con 0,539.

Cuando ambas tareas se promedian, TinyRouter termina con 0,858. Deepseek-v4-pro queda en 0,835, el enrutamiento aleatorio en 0,833, glm-5p2 en 0,789 y kimi-k2p6 en 0,640.

La lectura que ofrece el proyecto es directa. La victoria del router ocurre a través de tareas, no dentro de una sola tarea, porque ningún modelo individual es el mejor en todos los frentes.

En MMLU, donde las capacidades de los modelos sí divergen con claridad, el enrutamiento ayuda de forma visible. En matemáticas, donde los tres modelos se concentran cerca de 0,79, el router no mostró mejora frente al mejor modelo ni frente a un esquema aleatorio.

El diagnóstico del techo oráculo y lo que reveló sobre matemáticas

Para entender por qué el router no mejoraba en matemáticas, el proyecto construyó un diagnóstico de techo oráculo. La meta era distinguir si el problema estaba en el conjunto de modelos o en la incapacidad del router para capturar oportunidades reales de enrutamiento.

Ese diagnóstico estima la mejor puntuación que podría alcanzar un router condicional a la consulta. Según la explicación técnica del repositorio, el cálculo se ajustó para evitar la maldición del ganador con ajuste cruzado de mitad dividida y se leyó mediante intervalos de confianza bootstrap.

En math500, el mejor modelo único marcó 0,808. El router perfecto se estimó en 0,856, lo que implicó un espacio real de +0,049 con un intervalo de confianza de 95% entre 0,005 y 0,085.

El veredicto para matemáticas fue claro: ROUTER_BOUND. Eso significa que sí había mejora potencial disponible, pero el router entrenado no estaba capturando ese margen.

En MMLU, el mejor modelo único llegó a 0,939 y el router perfecto fue estimado en al menos 0,939. Allí el espacio real fue de +0,025 con un intervalo de confianza de 95% entre 0,000 y 0,058, un resultado descrito como inconcluso y cercano al techo.

La conclusión de fondo es relevante para quienes siguen la evolución de arquitecturas compuestas. El empate del router en matemáticas no necesariamente indicaba que el enrutamiento fuera inútil, sino que el conjunto sí ofrecía una oportunidad que el coordinador, en su estado actual, dejó sobre la mesa.

Mejoras probadas, costos del experimento y el debate sobre escalabilidad

A partir de ese diagnóstico, el trabajo se concentró en matemáticas e incorporó dos mejoras. La primera fue un inicio en caliente supervisado de la cabeza usando etiquetas de corrección por pregunta y modelo, en lugar de arrancar desde una cabeza en blanco.

La segunda mejora fue la conformación de la recompensa de entrenamiento. Allí se añadieron un bono de formato, una penalización por turno y una reponderación de varianza, mientras la evaluación final seguía siendo puramente binaria entre correcto e incorrecto.

Con esas modificaciones, el router reentrenado alcanzó 0,808 en matemáticas sobre 120 preguntas retiradas. El mejor modelo único, glm-5p2, obtuvo 0,817; el router anterior en la misma prueba había marcado 0,792 y el enrutamiento aleatorio 0,733.

El proyecto calificó ese avance como inconcluso y no como una victoria. La razón es que el ruido de muestreo fue lo bastante grande como para ocultar una mejora de 1,6 puntos, y además no se ejecutó el control limpio necesario para hacer una afirmación causal sobre el efecto de esas mejoras.

En materia de costos, la replicación central y la evaluación rigurosa se estimaron en USD $20,89. De ese monto, deepseek representó USD $6,56, glm USD $6,70 y kimi USD $7,64.

El diagnóstico de techo oráculo costó alrededor de USD $14. El experimento de inicio en caliente más recompensa conformada, incluyendo recolección de etiquetas, reentrenamiento y evaluación, sumó USD $27,22.

En comentarios adicionales, el creador del proyecto estimó que superar sistemas comparables podría costar alrededor de USD $200.000, con la mayor parte del gasto asociada a llamadas de API o a recursos de cómputo si se decide alojar los modelos. También indicó que podrían requerirse entre USD $30.000 y USD $50.000 en créditos para entrenar el modelo orquestador, aunque señaló que el uso de aprendizaje por refuerzo durante el proceso de resolución aún deja incertidumbre sobre el costo total de ese paso.

Más allá de si TinyRouter termina siendo una curiosidad técnica o una señal temprana de una tendencia mayor, el experimento deja una tesis concreta para el sector. En ciertos contextos, un coordinador minúsculo y barato puede extraer más valor de un conjunto de modelos existentes que la simple apuesta por seguir escalando un solo LLM.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín