Por Canuto  

Una nueva investigación sugiere que el refuerzo aplicado a grandes modelos de lenguaje no distribuye sus mejoras de forma pareja. En varios casos, entrenar una sola capa del transformer recuperó casi toda la ganancia del ajuste completo y hasta la superó, abriendo preguntas incómodas sobre eficiencia, costo computacional y diseño del posentrenamiento en IA.
***

  • El estudio halló que una sola capa puede recuperar hasta 114% de la mejora lograda con entrenamiento RL de todos los parámetros.
  • Las capas con mayor impacto se concentran de forma consistente en la zona media del transformer, no en los extremos.
  • Estrategias guiadas por esta estructura superaron al entrenamiento RL estándar en modelos Qwen de entre 1,7B y 8B parámetros.


El posentrenamiento con aprendizaje por refuerzo se ha convertido en una pieza central para mejorar grandes modelos de lenguaje. Sin embargo, una nueva investigación plantea que esa mejora no se reparte de forma uniforme dentro de la red, como usualmente se asumía.

El trabajo, titulado Is One Layer Enough? Training A Single Transformer Layer Can Match Full-Parameter RL Training, fue realizado por Zijian Zhang, Rizhen Hu, Athanasios Glentis, Dawei Li, Chung-Yiu Yau, Hongzhou Lin y Mingyi Hong. Su conclusión central es llamativa: entrenar una sola capa del transformer puede recuperar la mayor parte de la ganancia del aprendizaje por refuerzo, e incluso superarla en algunos casos.

La idea desafía una intuición muy extendida en inteligencia artificial. Hasta ahora, la práctica dominante consistía en actualizar todos los parámetros del modelo durante esta etapa, bajo la premisa de que cada capa aportaba de manera más o menos similar al resultado final.

Los autores probaron justo lo contrario. En vez de ajustar todo el modelo, congelaron casi toda la red y entrenaron una capa a la vez para medir cuánta mejora podía absorber esa capa por sí sola.

El hallazgo no fue marginal. A lo largo de siete modelos, dos familias de arquitecturas, tres algoritmos de RL y varias clases de tareas, las mayores ganancias se concentraron de forma repetida en un grupo pequeño de capas, muchas veces en una sola.

Qué midió el estudio y por qué importa

Para entender el alcance del resultado, conviene recordar qué hace el aprendizaje por refuerzo en modelos de lenguaje. Después del preentrenamiento general, esta fase intenta mejorar capacidades concretas, como razonamiento matemático, generación de código o toma de decisiones, usando recompensas verificables.

En este caso, los investigadores analizaron dónde “vive” realmente esa mejora dentro del transformer. En vez de tratar al modelo como una caja negra, observaron capa por capa qué parte del progreso total podía recuperarse al entrenar solo ese bloque.

Para cuantificarlo introdujeron la métrica “contribución de capa”. Esa medida compara el rendimiento de un modelo entrenado en una sola capa frente al rendimiento base y frente al rendimiento obtenido con entrenamiento completo.

Un valor de 1,0 significa que una sola capa igualó toda la mejora del entrenamiento de parámetros completos. Un valor mayor a 1,0 indica que esa capa, entrenada de forma aislada, incluso superó el resultado del ajuste total.

La implicación es fuerte para la industria de IA. Si una fracción pequeña del modelo concentra buena parte del avance, el enfoque clásico de actualizar toda la red podría estar gastando cómputo, memoria y tiempo de forma ineficiente.

También hay una lectura más amplia para sectores como blockchain e IA descentralizada. La posibilidad de lograr mejoras comparables ajustando menos parámetros puede reducir costos de infraestructura, facilitar entrenamiento en entornos limitados y abrir puertas a modelos más ligeros para redes distribuidas.

Los resultados en Qwen: una sola capa llegó a superar el entrenamiento total

La batería principal del estudio se realizó sobre Qwen3-1.7B-Base, Qwen3-4B-Base y Qwen3-8B-Base. En estos experimentos se aplicó GRPO y se usó NuminaMath-CoT como conjunto de entrenamiento.

En Qwen3-1.7B-Base, la contribución de capa osciló entre 0,28 y 1,14. La mejor capa fue la 10, mientras que la capa 24 quedó en el extremo bajo, mostrando una diferencia de más de cuatro veces entre la mejor y la peor.

Ese 1,14 implica que la capa 10, entrenada de forma aislada, recuperó 114% de la ganancia lograda por el entrenamiento completo. Además, 5 de las 28 capas superaron el umbral de 1,0.

En Qwen3-4B-Base, el rango fue de 0,66 a 1,06. La capa 16 encabezó la lista, y 4 de las 36 capas alcanzaron o superaron el rendimiento del entrenamiento total.

En Qwen3-8B-Base, la mejor capa también fue la 16 con una contribución de 1,07. El dato más llamativo allí fue la capa 0, que registró una contribución negativa de -0,51, lo que significa que entrenarla sola empeoró el resultado por debajo del modelo base.

Las cifras de evaluación en matemáticas fueron igual de concretas. En Qwen3-8B, el modelo base logró 58,0 de promedio matemático, el entrenamiento completo subió a 66,4 y la mejor estrategia guiada por contribución llevó la marca hasta 69,1.

Eso equivale a una mejora adicional de 32% sobre la ganancia total atribuida al RL estándar en esa escala. En Qwen3-4B, la mejora adicional fue de 27%, y en Qwen3-1.7B alcanzó 43%.

La zona media del transformer apareció como el núcleo de la mejora

El patrón más estable del estudio no fue solo que algunas capas rindieran mejor. Lo importante es que casi siempre esas capas se concentraron en la parte media de la red.

Los extremos del transformer, cerca de la entrada y de la salida, mostraron contribuciones bastante menores. Esa forma se repitió a través de distintos tamaños de modelo y también bajo tareas diferentes.

En las gráficas del trabajo, las capas con mejor desempeño suelen ubicarse aproximadamente entre 40% y 60% de la profundidad total. Algunas incluso entraron en la zona donde superaban al entrenamiento completo.

Esto sugiere una propiedad estructural del posentrenamiento con RL. En lugar de requerir adaptación coordinada y pareja en toda la red, gran parte del beneficio parecería emerger en un subconjunto relativamente estable de capas medias.

La observación no se limitó al desempeño en matemáticas. Los autores también compararon la contribución de capa con un promedio más amplio que incluía código, razonamiento y lenguaje, y hallaron correlaciones de Pearson mayores a 0,6 en los tres tamaños de Qwen3.

En otras palabras, las capas que aprendían mejor la tarea principal también tendían a mejorar capacidades fuera de dominio. Eso refuerza la idea de que no se trata de un ajuste oportunista sobre un benchmark, sino de una mejora más general.

Consistencia entre datasets, tareas y algoritmos

Una objeción posible era que el patrón dependiera del dataset usado para entrenamiento. Para responder a eso, el equipo repitió pruebas sobre Qwen3-1.7B-Base con DeepScaleR en matemáticas y DeepCoder en programación.

Entre NuminaMath-CoT y DeepScaleR, ambos enfocados en matemáticas, la correlación de rangos por capa fue de Spearman ρ = 0,76. Ese valor indica una consistencia fuerte en el orden relativo de las capas.

Entre NuminaMath-CoT y DeepCoder, donde ya cambia la naturaleza de la tarea de matemáticas a código, la correlación siguió siendo significativa con Spearman ρ = 0,59. El patrón, por tanto, no desapareció al cambiar de dominio.

Los autores interpretan esto como una señal de que la contribución de capa es una propiedad intrínseca del modelo preentrenado. Según el trabajo, no parece depender principalmente del contenido específico de los datos usados en RL.

La generalización también se probó con otras familias y otros algoritmos. En Qwen2.5-Math-1.5B, usando Dr. GRPO, la mejor capa alcanzó una contribución de 1,01, mientras la peor quedó en 0,42.

En tareas agenticas con ALFWorld y GiGPO, el patrón volvió a repetirse. En Qwen2.5-1.5B-Instruct, la capa 14 logró 1,02, y en Qwen2.5-3B-Instruct la capa 18 llegó a 1,01.

Incluso en DeepSeek-Distilled-Qwen-7B, entrenado con GRPO sobre el dataset matemático Skywork, la capa 16 marcó 1,05. En el otro extremo, una capa tardía registró solo 0,33.

Estrategias prácticas: entrenar menos capas dio mejores resultados

El valor del estudio no quedó solo en la observación académica. A partir de la estructura detectada, los autores probaron métodos de entrenamiento guiados por contribución para ver si podían superar el enfoque estándar.

La primera estrategia consistió en subir la tasa de aprendizaje de las capas con alta contribución, mientras el resto mantenía la tasa base. En todos los tamaños de Qwen3, reforzar las mejores capas mejoró el promedio matemático frente al entrenamiento uniforme.

En Qwen3-1.7B-Base, la estrategia Boost B10 alcanzó 53,70 frente a 50,82 del entrenamiento completo. En Qwen3-4B-Base llegó a 64,42 frente a 62,97, y en Qwen3-8B-Base subió a 67,42 frente a 66,43.

La segunda estrategia fue más agresiva. En vez de ajustar todo el modelo, los autores entrenaron solo las mejores 5 o 10 capas y congelaron el resto.

En Qwen3-4B-Base, entrenar solo las mejores 5 capas produjo 65,87. En Qwen3-8B-Base, entrenar solo las mejores 10 capas llevó el promedio a 69,11 frente a 66,43 del RL completo.

La diferencia fue importante porque no solo mejoró el puntaje. También sugiere que las capas de baja contribución podrían introducir ruido o diluir parte de la señal útil cuando se actualiza toda la red al mismo tiempo.

Como control, el equipo probó lo contrario. Cuando reforzaron o entrenaron únicamente las peores capas, el rendimiento cayó de forma consistente en todos los modelos evaluados.

Hasta una heurística simple funcionó sin perfilado previo

Una limitación práctica del enfoque guiado por contribución es evidente. Para saber cuáles capas son las mejores, primero hay que ejecutar un perfilado capa por capa, y eso cuesta tiempo y recursos.

Para sortear ese problema, los autores ensayaron una regla simple. Dado que las capas más útiles suelen concentrarse en el centro del transformer, probaron entrenar solo un grupo de capas medias por posición, sin medir contribuciones de antemano.

Con esa heurística de las 5 capas centrales, Qwen3-1.7B-Base obtuvo 51,35 frente a 50,82 del entrenamiento completo. Qwen3-4B-Base alcanzó 64,80 frente a 62,97, y Qwen3-8B-Base llegó a 68,19 frente a 66,43.

El resultado no igualó siempre a la selección óptima basada en perfilado, pero sí superó al entrenamiento total en los tres tamaños. Eso vuelve atractiva la idea de usar capas medias como atajo operativo cuando no se pueda costear una exploración exhaustiva.

Para firmas que desarrollan infraestructura de IA o aplicaciones cripto con agentes especializados, ese hallazgo puede tener implicaciones económicas concretas. Menos parámetros actualizados puede traducirse en menor uso de GPU, menos memoria y ciclos de entrenamiento más baratos.

En un contexto donde los costos de cómputo siguen siendo un cuello de botella, cualquier técnica que preserve o eleve rendimiento con menos actualización interna puede alterar la relación entre capital, eficiencia y ventaja competitiva.

Diversidad entre capas y límites del trabajo

El estudio también exploró si las capas de alto aporte aprendían exactamente lo mismo. La respuesta fue no, al menos en Qwen3-1.7B-Base sobre OlympiadBench.

Entre los 7 modelos entrenados en capas de mayor contribución, la similitud promedio de problemas nuevos resueltos fue de apenas 34,1% según el índice de Jaccard. Eso indica que modelos con rendimientos parecidos podían estar capturando soluciones complementarias.

Cuando combinaron esas predicciones con votación por mayoría, el rendimiento subió a 33,6% en OlympiadBench. Esa cifra superó tanto al mejor modelo de capa única, con 28,3%, como al modelo de entrenamiento completo, con 26,9%.

Otro análisis evaluó si las capas más útiles eran simplemente las que más cambiaban sus pesos. El trabajo concluyó que no existe esa relación directa, porque bajo entrenamiento completo el cambio de pesos fue relativamente uniforme entre capas.

Los propios autores reconocen límites. Sus estrategias guiadas fueron validadas sobre todo en razonamiento matemático, y dejan para trabajos futuros la extensión sistemática a código y tareas agenticas.

También admiten que falta una explicación teórica más profunda sobre por qué las capas medias parecen desproporcionadamente importantes para absorber la mejora del RL. Esa pregunta, de hecho, puede convertirse en una línea relevante para la próxima generación de optimización de modelos.

Si el resultado se consolida en investigaciones posteriores, la industria podría verse obligada a revisar un supuesto costoso. Tal vez no sea necesario mover toda la red para conseguir un salto de calidad, y en tiempos de guerra por GPU, esa conclusión no es menor.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín