Por Canuto  

Un nuevo análisis de AISI sostiene que muchas evaluaciones de agentes de IA están midiendo solo una fracción de su rendimiento real. El problema, afirma la institución, es que los benchmarks suelen imponer límites de cómputo que recortan capacidades visibles, especialmente en modelos más recientes y en tareas largas como ciberseguridad, software y matemáticas.
***

  • AISI concluye que la capacidad de un agente de IA debe entenderse como una curva ligada al cómputo en tiempo de prueba, no como un puntaje único.
  • En ciberseguridad, cerca de 8% de las tareas solo se resolvieron cuando el presupuesto alcanzó más de 10 millones de tokens, y algunas exigieron hasta 50 millones.
  • La institución afirma que los modelos más nuevos aprovechan mejor el cómputo adicional, lo que puede hacer que el progreso de la frontera de IA parezca más lento de lo que realmente es.


Las evaluaciones de agentes de inteligencia artificial podrían estar subestimando de forma sistemática lo que estos sistemas ya son capaces de hacer. Esa es la principal advertencia que surge de un nuevo trabajo de AISI, centrado en el papel del cómputo disponible durante la ejecución de una tarea.

Según el análisis, muchos benchmarks siguen reduciendo el desempeño de un agente a un solo número. Ese enfoque, sostiene la institución, oculta una decisión crítica de diseño: cuánto cálculo se le permite gastar al sistema antes de obligarlo a detenerse.

El hallazgo importa más ahora porque los agentes están recibiendo mayor autonomía y encargos más complejos. Si el presupuesto de prueba es demasiado bajo, la evaluación puede registrar un fallo que en realidad refleje una restricción artificial y no una incapacidad genuina del modelo.

Para un público que sigue el auge de la IA como infraestructura económica, este matiz no es menor. En mercados tecnológicos, una medición equivocada puede alterar decisiones de despliegue, estimaciones de valor e incluso percepciones sobre riesgo regulatorio y de seguridad.

AISI explicó que en marzo de 2026 ya había publicado resultados que sugerían que límites modestos de cómputo subestimaban la capacidad de modelos en tareas cibernéticas. Ahora amplió el análisis a varias familias de benchmarks y concluyó que el problema es más general.

Qué evaluó AISI y por qué el cómputo cambia el resultado

El equipo de Ciencia de Evaluación de AISI ejecutó modelos de frontera con presupuestos altos de cómputo en referencias de ciberseguridad, ingeniería de software, matemáticas, tareas académicas y atención médica. En vez de medir una sola vez con un tope fijo, barrió presupuestos de tokens desde niveles bajos hasta altos.

Ese enfoque permitió observar cómo cambiaba el desempeño cuando el agente disponía de más margen para trabajar. AISI siguió cuatro variables: éxito general, fiabilidad, eficiencia y el nivel de dificultad de las tareas que cada modelo era capaz de alcanzar.

La institución distingue dos usos centrales para ese cómputo adicional. Por un lado, los tokens pueden financiar pasos concretos de ejecución y, por otro, procesos de razonamiento, planificación y verificación de soluciones.

También hay dos formas de asignar ese presupuesto. Puede usarse en serie, en una trayectoria larga donde el agente explora y corrige errores, o en paralelo, repartido en varios intentos independientes para elevar la probabilidad de que uno funcione.

El punto de fondo es que un corte prematuro puede truncar justamente el tramo de trabajo que habría permitido resolver la tarea. Por eso, AISI sostiene que la capacidad del modelo no debe leerse como un valor fijo, sino como una curva que depende del cómputo en tiempo de prueba.

Si esa curva sigue subiendo cuando termina la evaluación, el puntaje reportado no representa el techo de la capacidad observada. En palabras prácticas, sería apenas un límite inferior de lo que el sistema puede hacer bajo condiciones más amplias.

Más tokens revelan capacidades que antes quedaban ocultas

En la suite de ciberseguridad de AISI, la tasa de éxito de un modelo aumentó de forma sostenida a medida que crecía el presupuesto por tarea. Cerca de 8% de las tareas solo se resolvieron cuando el margen llegó a más de 10 millones de tokens.

Algunas de esas tareas exigieron hasta 50 millones de tokens. Bajo presupuestos menores, esos éxitos simplemente no habrían aparecido en los resultados finales.

La institución añade que modelos más recientes alcanzaron puntajes todavía mayores cuando se los probó con presupuestos de más de 100 millones de tokens. Eso refuerza la idea de que la comparación entre generaciones puede quedar distorsionada si se usa un mismo tope rígido.

El patrón no se limitó al entorno de ciberseguridad. En referencias públicas, elevar los presupuestos totales de tokens de 1 millón a 10 millones mejoró el rendimiento en cerca de 25% en tareas de ingeniería de software, incluyendo TerminalBench 2.0 y SWE-Bench Pro.

En matemáticas y tareas académicas, el aumento fue de alrededor de 22%, de acuerdo con el análisis, tomando como referencia El Último Examen de la Humanidad hasta un máximo de 5 millones de tokens. En TerminalBench, además, el desempeño siguió mejorando incluso después de multiplicar por diez el presupuesto que suelen informar las evaluaciones públicas.

AISI matiza que este efecto no es universal. En HealthBench, por ejemplo, cada modelo se estancó dentro de su presupuesto habitual, lo que sugiere que el cómputo extra ayuda más en dominios donde el agente puede verificar su trabajo, como ejecutar código o probar un exploit.

La duración humana de una tarea anticipa cuánto cómputo necesitará la IA

Uno de los resultados más llamativos del trabajo es la relación entre el tiempo que una tarea tomaría a un humano calificado y el cómputo que necesita un agente para resolverla. AISI observó ese patrón tanto en tareas cibernéticas como en ingeniería de software.

De acuerdo con la institución, el cálculo requerido escala en proporción al horizonte temporal humano de la tarea. El comportamiento se mantuvo incluso al observar la ejecución exitosa más barata para cada caso, lo que sugiere que no se trata solo de ineficiencia del sistema.

El estudio señala que la relación sigue una ley de potencias con un exponente ajustado de aproximadamente 0,7 a 1,0. En términos simples, una tarea de un minuto para una persona puede costarle al agente miles de tokens, una tarea de una hora puede requerir millones, y una de una semana puede escalar a miles de millones.

La conclusión ayuda a entender por qué las curvas de benchmark siguen subiendo cuando se expande el presupuesto. Cada incremento permite acceder a una nueva franja de tareas con requisitos de cómputo más altos.

La institución aclara que, por ahora, solo ha comprobado esta relación en ciberseguridad e ingeniería de software. También reconoce que el tiempo humano es un proxy imperfecto de dificultad y que la dispersión alrededor de la tendencia es significativa.

Aun así, para los agentes actuales en esos dominios, el horizonte humano resulta un predictor útil del cómputo necesario para observar éxito. Eso implica que un presupuesto fijo recortará primero las tareas más largas y exigentes, no necesariamente las más fuera del alcance del modelo.

Un ejemplo concreto es el campo cibernético de AISI llamado Los Últimos. Esa prueba se estima en unas 20 horas de trabajo para un experto humano, y ningún modelo evaluado logró completarla hasta contar con al menos 30 millones de tokens de presupuesto.

Los modelos más nuevos ganan más con cómputo extra y eso altera la lectura del progreso

El trabajo también concluye que las generaciones recientes de modelos convierten mejor el cómputo adicional en resultados. Eso significa que la curva de capacidad no solo se desplaza hacia arriba, sino que cambia de forma a medida que los agentes mejoran.

AISI descompone ese avance en tres ejes. Los modelos nuevos resuelven tareas más difíciles, lo que la institución llama alcance, lo hacen con mayor consistencia, es decir fiabilidad, y en ciertos casos logran resolver algunas tareas con menos tokens, o sea, mayor eficiencia.

Esta distinción es clave para medir el progreso de frontera. En vez de preguntar solo qué porcentaje aprueba un benchmark, AISI propone observar cuánto tiempo de trabajo humano puede emular un sistema con determinada probabilidad de éxito.

La institución usa para ello el llamado horizonte de tiempo del 80%, definido como el tiempo de finalización humana en el cual el modelo tiene una probabilidad de éxito de 80%, específicamente en tareas cibernéticas estrechas. Ese horizonte se estimó mediante un ajuste logístico penalizado con tokens censurados.

En trabajos previos, AISI había calculado que los horizontes de tiempo de modelos de frontera en su suite de CTFs cibernéticos se duplicaban cada 4,7 meses desde finales de 2024. Sin embargo, esa estimación se basaba en presupuestos fijos de 2,5 millones de tokens por tarea.

Al recalcular con un presupuesto de 50 millones de tokens por tarea, la tendencia de frontera ajustada para modelos lanzados en el último año resultó cerca de 60% más empinada. En otras palabras, la velocidad aparente del progreso depende también del presupuesto usado para medirla.

El contraste también aparece a nivel individual. Un modelo de frontera reciente pasó de un horizonte de alrededor de 40 minutos con un presupuesto de 2,5 millones de tokens a cerca de 4 horas con un presupuesto de 50 millones.

Para la frontera actual, ampliar el presupuesto de 2,5 millones a 50 millones de tokens elevó el horizonte estimado de aproximadamente 2 horas a aproximadamente 14 horas. AISI cita además evidencia convergente de MirrorCode, de Epoch, donde un modelo reciente usó hasta 1.000 millones de tokens para avanzar en reconstrucción de programas que habrían requerido semanas de trabajo de un ingeniero humano.

Qué implicaciones tiene para riesgo, política pública y evaluación técnica

La discusión central del informe es que la capacidad de un agente no puede interpretarse sin conocer el presupuesto de cómputo con el que fue medida. Ese presupuesto cambia el rendimiento registrado, los horizontes de tarea que puede alcanzar la prueba y la velocidad a la que parece moverse la frontera tecnológica.

Para desarrolladores, evaluadores y responsables de políticas, esto afecta decisiones concretas. Un puntaje medido con muy poco presupuesto puede hacer que un modelo parezca menos capaz de lo que sería en un uso realista con más recursos.

Eso tiene consecuencias directas sobre despliegue, valor económico y riesgo. Si una organización asume que cierto sistema no puede completar una cadena larga de acciones porque falló en un benchmark limitado, podría estar ignorando una capacidad que sí emergería en condiciones operativas distintas.

El análisis agrega otro factor relevante para el mercado. A medida que el costo por token cae, presupuestos de prueba que antes eran prohibitivos pueden volverse cada vez más accesibles, haciendo visibles capacidades que hoy parecen demasiado costosas de activar.

AISI subraya que no hace falta adoptar narrativas extremas sobre el futuro de la IA para llegar a esta conclusión. El problema, dice la institución, es ante todo de medición: tratar la capacidad como un puntaje fijo lleva a sorpresas cuando el sistema recibe más inversión computacional.

También deja tres preguntas abiertas. La primera es en qué dominios el cómputo adicional compra más capacidad de forma confiable y por qué, dado que el efecto parece más fuerte donde los agentes pueden verificar su propio trabajo.

La segunda es si el rendimiento con presupuestos altos puede estimarse a partir de ejecuciones más baratas. Ese punto importa porque las evaluaciones más informativas tienden a ser más costosas y lentas.

La tercera pregunta es hasta qué punto el tiempo de tarea humano predice el cómputo que necesita un modelo. AISI cree que la relación aparece en ciberseguridad e ingeniería de software, pero advierte que podría variar entre dominios y cambiar si los sistemas se vuelven más eficientes en tokens.

Cómo piensa responder AISI a este sesgo de medición

Mirando hacia adelante, AISI afirma que ya está incorporando estos hallazgos en sus propias evaluaciones. La primera medida es probar modelos de frontera con múltiples presupuestos, incluyendo presupuestos muy altos para las tareas más difíciles.

La segunda es informar fiabilidad y alcance en función del presupuesto. Con ello busca distinguir entre un modelo realmente de baja capacidad y una evaluación que simplemente se quedó sin recursos demasiado pronto.

La tercera línea de trabajo consiste en definir lo que llama presupuestos informativos mínimos. La idea es verificar si el alcance de un modelo dejó efectivamente de crecer al recibir más cómputo.

En paralelo, la institución desarrolla métodos para prever el rendimiento con presupuestos altos a partir de corridas más baratas. Si ese objetivo se cumple, el costo de evaluar mejor a los agentes podría reducirse de forma significativa.

Finalmente, AISI asegura que está compartiendo este trabajo con socios internacionales. El objetivo es apoyar prácticas robustas de evaluación e informes para agentes de IA cada vez más capaces, en línea con lo que ya están haciendo algunos proveedores líderes.

Para quienes siguen la evolución de la IA como plataforma productiva y de seguridad, la señal es clara. El rendimiento de un agente ya no debería presentarse como una cifra aislada, sino como una curva que revela cuánto puede crecer su capacidad cuando aumenta el presupuesto de cómputo.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín