Un nuevo estudio en arXiv plantea que contar tokens no basta para medir el razonamiento de los modelos de lenguaje. En su lugar, propone identificar “deep-thinking tokens”, señales internas de revisión y convergencia tardía entre capas, y con eso construir una métrica que se correlaciona mejor con la precisión y permite recortar costos en inferencia.
***
- El paper cuestiona que la longitud de la cadena de pensamiento sea un buen proxy de calidad y la vincula con “overthinking”.
- Propone el deep-thinking ratio, basado en cuánta revisión interna sufren las predicciones de tokens a través de capas del modelo.
- Introduce Think@n para priorizar muestras con alto deep-thinking ratio y rechazar temprano generaciones poco prometedoras para reducir cómputo.
🚨 Innovación en IA: Estudio propone medir el “esfuerzo de razonamiento” en LLM con deep-thinking tokens
Se argumenta que contar tokens no es suficiente.
Se introduce el “deep-thinking ratio” para evaluar la calidad del razonamiento.
La longitud del razonamiento podría… pic.twitter.com/FwlySCPug2
— Diario฿itcoin (@DiarioBitcoin) February 22, 2026
Un trabajo académico publicado en arXiv el 13 de febrero de 2026 propone cambiar una idea que se volvió común en la industria de la inteligencia artificial: que “más tokens” equivale a “mejor razonamiento”. El estudio, titulado Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens, sostiene que la longitud de una cadena de pensamiento puede ser un indicador engañoso del esfuerzo real que hace un modelo. Según los autores, en algunos casos la verbosidad se asocia a “overthinking” y hasta a caídas de desempeño.
En lugar de medir el razonamiento con conteos de salida, el paper propone una métrica interna, basada en la dinámica de predicción a través de las capas del transformador. La idea central es distinguir entre tokens que se “deciden” rápido y tokens que, antes de estabilizarse, atraviesan revisiones profundas en capas tardías. A esos últimos los denomina “deep-thinking tokens”, y sobre ellos construye el “deep-thinking ratio” como proxy del esfuerzo de razonamiento en tiempo de inferencia.
El trabajo está firmado por Wei-Lin Chen (University of Virginia) y un equipo con afiliación a Google, incluyendo a Liqian Peng, Tian Tan, Chao Zhao, Blake JianHang Chen, Ziqian Lin, Alec Go y Yu Meng. El documento indica que parte del trabajo de Chen se realizó como investigador estudiante en Google. En conjunto, plantean que su enfoque permite medir mejor la calidad del pensamiento sin depender de anotaciones externas ni de heurísticas específicas de cada tarea.
Por qué “pensar más” no es lo mismo que generar más
En la práctica, muchos sistemas de IA han escalado el “test-time compute” pidiendo a los modelos que expliquen más, generen cadenas de razonamiento largas o produzcan múltiples muestras para luego votar una respuesta. El paper reconoce ese contexto y menciona que el aumento de tokens de razonamiento suele verse como una vía para mejorar resultados en tareas difíciles. Sin embargo, enfatiza que investigaciones recientes muestran que el conteo bruto de tokens no es un proxy confiable de calidad.
Los autores describen un problema recurrente: un modelo puede escribir más y, aun así, fallar más. En su marco interpretativo, esa expansión puede ser ruido, repetición o una amplificación de heurísticas equivocadas. También la asocian al “overthinking”, entendido como una tendencia a fijarse en detalles irrelevantes o a profundizar en líneas de razonamiento defectuosas, consumiendo cómputo sin mejorar la respuesta final.
Para fundamentar el punto, el documento muestra comparaciones de correlación entre precisión y distintas señales. En la Figura 1, usando GPT-OSS-120B-medium, el conteo de tokens se correlaciona de forma negativa con la precisión (promedio de correlación r = -0,544) en cuatro benchmarks: AIME 2024, AIME 2025, HMMT 2025 y GPQA-Diamond. En contraste, su métrica “deep-thinking ratio” presenta correlación positiva fuerte con precisión (promedio r = 0,828) en los mismos escenarios.
Este contraste es clave para la discusión de costos. En un entorno donde inferencia significa gasto directo en infraestructura, la diferencia entre “generar más” y “pensar mejor” impacta presupuesto y latencia. El paper sugiere que medir esfuerzo con herramientas más mecanísticas podría permitir decisiones de cómputo más inteligentes, sin premiar la verbosidad por sí misma.
Qué son los deep-thinking tokens y cómo se identifican
El núcleo técnico del paper se apoya en observar el proceso interno de predicción token a token. En un modelo autoregresivo con L capas transformer, cada paso de generación produce estados ocultos por capa y, al final, una distribución sobre el vocabulario. Los autores aprovechan un hecho conocido en la literatura: si se proyectan estados intermedios al espacio de vocabulario usando la misma “cabeza” de lenguaje, se obtienen distribuciones predictivas útiles aun antes de la última capa.
Con esa base, el enfoque compara las distribuciones de capas intermedias con la distribución de la capa final. La intuición es directa: si una predicción ya se parece mucho a la final en capas tempranas, el token “se decide” pronto y refleja menor esfuerzo. Si, por el contrario, la predicción cambia de manera sostenida y recién converge en capas profundas, entonces ese token sería evidencia de pensamiento más intenso.
El paper operacionaliza la diferencia con un criterio de convergencia que usa divergencia Jensen–Shannon (JSD) entre distribuciones. En su ejemplo visual (Figura 2), palabras funcionales y tokens de plantilla tienden a converger en capas relativamente tempranas, mientras que tokens de respuesta y símbolos asociados al resultado, como números finales, tienden a asentarse en capas profundas. Esa separación intenta capturar “contenido de decisión” en vez de solo “cantidad de texto”.
Una vez etiquetados los deep-thinking tokens, se calcula el deep-thinking ratio (DTR) como la proporción de esos tokens dentro de la secuencia generada. Según el documento, este número permite caracterizar el esfuerzo de razonamiento en inferencia con un criterio que no depende de parseo semántico externo ni de anotaciones manuales. La apuesta es que, al mirar la dinámica interna, el indicador se acerca más a la “calidad del pensamiento” que un conteo superficial.
La evidencia empírica: benchmarks y familias de modelos
Los autores evalúan su propuesta en cuatro benchmarks descritos como desafiantes para matemáticas y ciencia: AIME 2024, AIME 2025, HMMT 2025 y GPQA-Diamond. El documento también menciona un conjunto diverso de modelos “reasoning-focused”, incluyendo familias como GPT-OSS, DeepSeek-R1 y Qwen3. El objetivo es demostrar que la señal no es un artefacto de un solo modelo o de una sola tarea.
En la lectura del paper, el resultado más relevante es la consistencia del patrón: el DTR se correlaciona de forma positiva con la precisión de las respuestas, mientras que medidas como longitud o señales de confianza sirven peor como predictores. La Figura 1 resume esa comparación de forma explícita, con correlaciones reportadas por benchmark. En ese cuadro, la longitud presenta r negativos en cada conjunto, mientras el DTR mantiene r positivos altos.
Este tipo de hallazgo es especialmente útil para el debate actual sobre “test-time scaling”. Hoy, muchos pipelines producen varias respuestas y eligen por votación o consenso. Ese enfoque suele funcionar, pero incrementa el costo linealmente con la cantidad de muestras. El paper sugiere que, si existe una señal interna que predice calidad, se puede seleccionar con mayor eficiencia sin depender únicamente de generar mucho.
Para lectores del ecosistema cripto y financiero, el tema puede sonar ajeno, pero tiene paralelos claros con la optimización de recursos en mercados. Así como un trader no quiere “más operaciones” sino “mejores operaciones”, un operador de infraestructura de IA no quiere “más tokens” sino “mejores tokens”. En ambos casos, la métrica guía decisiones de asignación de capital y control de riesgo, aquí traducidas en cómputo y latencia.
Think@n: seleccionar mejor y rechazar temprano para reducir costos
Además de proponer la métrica, el paper introduce una estrategia de escalado en inferencia llamada Think@n. La idea es priorizar muestras con altos deep-thinking ratios al momento de seleccionar y agregar respuestas. En términos prácticos, el método busca acercarse al rendimiento de técnicas tipo self-consistency, pero con menos gasto computacional.
El documento afirma que Think@n puede igualar o superar el desempeño estándar de self-consistency, a la vez que reduce costos al habilitar rechazo temprano de generaciones poco prometedoras. La clave operativa es estimar el DTR usando prefijos cortos, y detener o descartar antes de pagar el costo total de una generación larga. En un contexto de despliegues a gran escala, esa decisión temprana se traduce en ahorro directo.
Según el paper, este enfoque permite aproximarse a “la mitad del costo de inferencia” respecto de alternativas de consenso, porque evita completar muestras que ya muestran señales internas de bajo “pensamiento profundo”. El matiz importante es que el trabajo se centra en medir esfuerzo de razonamiento, no en garantizar interpretabilidad humana del contenido. Aun así, propone una herramienta cuantitativa para políticas de cómputo más agresivas.
El resultado se inserta en una discusión más amplia: cómo escalar capacidades de razonamiento sin que el costo se dispare. En finanzas, esa tensión se ve en el paso de backtests a trading real, donde cada milisegundo y cada comisión cuentan. En IA, el equivalente es la factura de GPU y la experiencia del usuario final. El paper de arXiv aporta una palanca posible: medir internamente y decidir antes.
Implicaciones y límites: una métrica interna no es un veredicto final
El estudio abre una ruta interesante para evaluar modelos de razonamiento, pero también sugiere preguntas para adopción industrial. Medir divergencias por capa y etiquetar tokens con revisiones profundas puede requerir acceso a activaciones internas, algo que no siempre está disponible en APIs cerradas. Para empresas y equipos que operan con modelos hospedados, este requisito podría limitar su aplicación directa.
También queda implícita una tensión: una métrica que correlaciona con precisión no necesariamente captura todas las dimensiones de utilidad. En tareas abiertas, creativas o conversacionales, “pensar profundo” puede no traducirse en una respuesta preferible para el usuario. El paper se enfoca en benchmarks matemáticos y científicos, y es ahí donde reporta su evidencia más fuerte.
Aun así, el aporte conceptual es nítido: si se busca eficiencia, conviene medir señales del proceso interno en lugar de quedarse con métricas superficiales. Para el mercado de IA aplicado a trading algorítmico, análisis on-chain o monitoreo de riesgo, la eficiencia de inferencia puede convertirse en ventaja competitiva. En esos casos, una reducción de cómputo con precisión constante tiene impacto económico directo.
En última instancia, el documento propone un cambio de lenguaje para la industria: pasar de “longitud de razonamiento” a “esfuerzo de razonamiento” medido por dinámica interna. El mensaje del título lo resume: pensar profundo, no solo pensar largo. Si la métrica se consolida, podría influir en cómo se comparan modelos y en cómo se diseñan políticas de inferencia en productos de alto volumen.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
Anthropic lanza Claude Code Security para escanear código y sugerir parches contra vulnerabilidades
Opciones al Mac Studio para agentes de inteligencia artificial corriendo con modelos locales
Minero de Bitcoin MARA completa adquisición de centro de datos a EDF en Francia