Un gráfico de METR citado en “the SCARIEST chart in AI” por Wes Roth encendió las alarmas: no mide cuánto tarda la IA, sino cuántas horas de trabajo humano experto puede reemplazar. Con Claude Opus 4.6 saltando a 14,5 horas en la marca del 50% de éxito, el debate ya no es si la automatización se acelera, sino qué significa para el empleo, la seguridad y la velocidad con la que se reescribe el software del mundo.
***
- El eje vertical del gráfico representa horas de trabajo humano experto reemplazables, no el tiempo real que tarda el modelo en ejecutar la tarea.
- Claude Opus 4.6 aparece en 14,5 horas (a 50% de éxito), frente a Opus 4.5 cerca de poco más de 5 horas, lo que sugiere una aceleración reciente.
- Roth recoge alertas de líderes del sector (Sam Altman, Dario Amodei y Elon Musk) y objeciones sobre métricas, dificultad de tareas, y los enormes rangos de incertidumbre.
En “the SCARIEST chart in AI”, el creador Wes Roth presentó un gráfico que, según su lectura, captura una tendencia inquietante: el salto acelerado en la capacidad de agentes de IA para completar tareas que normalmente exigen muchas horas de trabajo humano experto. La imagen, difundida tras la aparición de Claude Opus 4.6, fue descrita como una de las piezas más malinterpretadas del progreso reciente en IA.

El punto central del debate no es estético, sino metodológico. Roth insiste en que mucha gente se confunde al creer que el gráfico mide cuánto tarda la IA en realizar el trabajo. En realidad, el eje vertical representa cuántas horas le tomaría a un humano experto completar cada tarea, y el porcentaje refleja con qué frecuencia el agente logra completarla a un nivel comparable.
Para un público acostumbrado a medir productividad en “tiempo de ejecución”, el matiz cambia el significado. Una IA podría completar algo en segundos o en un día, y eso no es lo que se está graficando. Lo que se intenta reflejar es el volumen de labor humana potencialmente sustituible, algo con implicaciones directas para empleo, costos y ventajas competitivas.
Qué es METR y qué mide realmente el gráfico
Roth explica que METR es una organización sin fines de lucro enfocada en entender el avance de la IA de frontera. Su trabajo incluye evaluar modelos punteros y analizar amenazas y riesgos asociados a ese avance. Para ello, ensamblan cientos de tareas en áreas como ingeniería, programación, aprendizaje automático y ciberseguridad.
El procedimiento clave, según Roth, consiste en que expertos humanos se sientan a completar esas tareas. Si un especialista tarda, por ejemplo, 8 horas en resolver una tarea de ciberseguridad, ese número se convierte en la unidad del eje vertical. Luego se prueba si un agente de IA puede completar la misma tarea con éxito, bajo distintos umbrales.
El gráfico suele mostrarse con dos opciones: 50% y 80%. La marca del 50% se interpreta como el horizonte donde la IA “acierta” aproximadamente la mitad de las veces, en promedio, para tareas de esa duración humana. La versión del 80% eleva el estándar al exigir que el agente tenga éxito el 80% de las veces.
Ese detalle, remarca Roth, explica por qué el gráfico puede parecer menos impresionante para algunos críticos y mucho más alarmante para otros. Aun así, la lectura que propone es que, si un bloque de horas humanas queda “cubierto” por agentes con tasas de éxito crecientes, el impacto sobre la demanda de trabajo experto se vuelve inevitable, incluso si la adopción tarda en expandirse.
De Opus 4.5 a Opus 4.6: el salto que movió la curva
Roth señala que, para muchos observadores, el pánico empezó con Claude Opus 4.5. En el gráfico de referencia al 50% de éxito, el modelo habría llegado al punto de reemplazar tareas que tomarían a un humano experto poco más de 5 horas de trabajo. En su lectura, ese avance ya tensaba la línea de tendencia original.
Poco después, la llegada de Claude Opus 4.6 habría empujado el punto hasta 14,5 horas en ese mismo horizonte del 50%. Roth lo traduce a una intuición cotidiana: cerca de dos días laborales de trabajo “real”, sin contar pausas. Ese salto, dice, sugiere que la trayectoria podría estar cambiando respecto a lo que antes se consideraba un ritmo “ya rápido”.
El creador aporta una anécdota para ilustrar el tipo de flujo de trabajo que imagina detrás del número. Afirma que reconstruyó su sitio natural20.com, un agregador de noticias, principalmente usando agentes con Opus 4.6. Describe que dejó tareas corriendo mientras dormía y, en unas 4 horas, el agente completó despliegue, configuración, repositorio inicial y hosting, algo que estima podría tomarle “al menos” uno o dos días a un experto humano.
También narra un caso contable: una tarea que postergó por meses y que resolvió al exportar datos y enviarlos a un agente con Opus 4.6. Según su relato, el trabajo quedó terminado en 30 a 40 minutos mientras él jugaba un videojuego. Además, el agente habría creado contexto y un sistema persistente, incluyendo una base SQL, para automatizar el proceso hacia adelante.
La velocidad: de “cada 7 meses” a “cada 123 días”
Una de las afirmaciones más fuertes en el análisis de Roth es el cambio en el ritmo de duplicación. Explica que, cuando circularon versiones previas del gráfico, muchos asumieron que las capacidades se duplicaban cada 7 meses. Incluso ese ritmo ya implicaba una aceleración notable para sectores productivos y para el debate sobre riesgos.
Sin embargo, Roth sostiene que, si se observa desde 2023 en adelante, la duplicación estaría ocurriendo aproximadamente cada 123 días, es decir, cerca de cada 4 meses. En su argumento, el progreso no solo continúa, sino que se acelera. Y eso alimenta la percepción de que la “línea” anterior ya no ajusta bien a los puntos recientes.
Roth menciona a Adam Binksmith, vinculado a AI Digest y al proyecto AI Village, como una de las primeras voces que vio señales de una aceleración mayor a la de “7 meses”. En su recuento, ese aviso se anticipó a la reacción actual. También sugiere que dentro de laboratorios y equipos técnicos se percibe tensión por el ritmo de cambio.
El debate sobre velocidad importa para el mundo cripto y financiero por una razón práctica: el software es infraestructura de mercados. Si herramientas de programación se automatizan con rapidez, la iteración de productos, estrategias y sistemas de trading puede acelerarse. Al mismo tiempo, aumentan riesgos operativos, de seguridad, y de asimetría entre quienes dominan agentes y quienes no.
Alertas y frases que avivan el debate: Altman, Musk y Amodei
Roth recoge declaraciones atribuidas a líderes del sector. Cita a Sam Altman en una entrevista fechada el 20 de febrero de 2026, diciendo: “The world is not prepared”. En el relato, Altman agrega que se aproximan modelos “extremadamente capaces”, con un despegue más rápido de lo que él esperaba, y que eso resulta estresante y genera ansiedad.
En el mismo repaso, Roth menciona que “cada vez más personas” sostienen que la programación ya está resuelta. Alude al creador de Claude Code, quien habría dicho en un pódcast que “coding is solved” y que la forma en que se enseña a programar “se acabó”. También atribuye a Altman una idea similar: que escribir C++ a mano quedó obsoleto, y que la distancia temporal entre AGI y superinteligencia podría ser corta dada la trayectoria.
Roth añade dos referencias más: afirma que Elon Musk dijo en enero que ya entramos en la singularidad y que 2026 sería “el año de la singularidad”. Y comenta que Dario Amodei, en el pódcast de Dark Cash Patel, habría dicho que estamos cerca del “end game” del exponencial, no en el sentido de estancamiento, sino de un tramo final donde la automatización se vuelve dominante.
En ese contexto, Roth menciona una frase atribuida a Amodei sobre Anthropic: “100% of today’s software engineering tasks are done by the models”. La interpretación que ofrece es directa: si un laboratorio de frontera con cultura fuertemente técnica ya usa IA para la mayoría o casi todas sus tareas de ingeniería de software, la automatización del coding sería un hecho, aunque su difusión al resto de la economía tome tiempo.
Críticas, incertidumbre y la discusión sobre cómo medir “dificultad”
El propio Roth reconoce que las métricas son complejas y que el gráfico se presta a interpretaciones equivocadas. Cita a una integrante del equipo de METR, Sydney von Arx, con una advertencia: “You should absolutely not tie your life to this graph, but also I bet that this trend is going to hold”. La frase resume una postura cauta, pero no complaciente.
Entre las objeciones, Roth menciona a Inolua Deborah Raji, de UC Berkeley, quien cuestiona que “más tiempo” implique necesariamente “más dificultad”. La observación apunta a un problema clásico: humanos y máquinas no comparten los mismos puntos fuertes. Algunas tareas largas para humanos pueden ser mecánicas y fáciles para un agente, y otras breves pueden requerir juicio y contexto difíciles de replicar.
Otra crítica que presenta Roth es la idea de que un modelo puede mejorar en coding sin mejorar “mágicamente” en otras áreas. Él contraargumenta que investigadores de Anthropic han descrito entrenamiento por refuerzo en múltiples dominios y que observaron “crossover”, es decir, mejoras que se transfieren. En su ejemplo, entrenar en programación podría levantar capacidades en matemáticas, y eso luego impactaría contabilidad o tareas afines.
También subraya el tamaño de los rangos de incertidumbre. Para Opus 4.6, el punto central sería 14,5 horas, pero el intervalo podría ir de 6 a 98. Si el rendimiento real se acerca al extremo alto, el significado cambia por completo: ya no serían horas, sino semanas de trabajo humano. Incluso el extremo bajo seguiría siendo transformador, sostiene.
El “sobrecolgante” de adopción: agentes potentes, usuarios que no los sueltan
Roth comenta hallazgos atribuidos a Anthropic sobre el uso de agentes, centrados en sesiones autónomas de herramientas como Claude Code. Una conclusión relevante es que esas sesiones se volvieron más largas con el tiempo, incluso sin depender de nuevos lanzamientos de modelos. En esa lectura, el factor que empuja la autonomía no sería solo la tecnología, sino la confianza del usuario.
Según lo descrito, usuarios avanzados tienden a permitir que el agente corra por períodos más extensos, pero también lo interrumpen más cuando detectan que se desvía. Es una mezcla de soltura y supervisión. Esa dinámica encaja con la experiencia de quienes usan agentes para programar, investigar o automatizar procesos: se gana velocidad, pero el control sigue siendo un recurso escaso.
Con esa evidencia, Roth plantea la metáfora de un “Bugatti” que se conduce a 10 millas por hora. Los modelos serían extremadamente capaces, pero la mayoría de las personas no los utiliza al límite. En términos de impacto económico, eso sugiere una brecha: el potencial productivo crece más rápido que la capacidad social de integrarlo en flujos de trabajo, marcos de seguridad y hábitos laborales.
Por último, advierte sobre fallas persistentes: alucinaciones y errores “tontos” que aún aparecen. Roth sostiene que el extremo superior de capacidad sigue creciendo, y que se buscarán mitigaciones, ya sea a nivel de modelo o con guardarraíles externos. Bajo esa lógica, mientras el beneficio sea enorme, la presión por resolver confiabilidad y verificación solo aumentará.
Proyecciones y el impacto acumulativo de automatizar procesos
Un punto que Roth cree que el gráfico no captura del todo es el efecto acumulativo. Muchas tareas no serían “one-off”, sino que crearían automatizaciones permanentes. En sus ejemplos, el agente no solo completó un trabajo puntual, sino que dejó sistemas listos para operar 24/7, como su agregador de noticias que clasifica tendencias con una escala de 1 a 100 usando métricas como Google Trends y la actividad en X.
Para ilustrar el cambio, propone una analogía histórica con la imprenta. Antes, pocos escribían y existían los escribas como profesión. Luego, la alfabetización se masificó y “ser escriba” dejó de ser un rol dominante. En su lectura, la programación podría vivir un proceso similar: no todo el mundo será un gran creador de software, pero casi cualquiera podrá “escribir” con ayuda de agentes.
En el plano de predicción, Roth afirma que, si la tasa de progreso que sugiere METR se mantiene, los modelos alcanzarían la capacidad de reemplazar un mes de trabajo humano hacia inicios de 2027, y alrededor de febrero de 2027 se hablaría de “tres semanas laborales”. También menciona proyecciones de METR: 99% de la investigación y el desarrollo en IA automatizados para 2032, y un aumento de eficiencia entre 1.000x y 10.000.000x para 2035.
El balance final que presenta es doble. El caso optimista: tendencias que se sostuvieron por más de cinco años en distintas familias de modelos, con puntos recientes que insinúan aceleración. El caso escéptico: barras de error enormes, umbrales de éxito del 50%, y mediciones del mundo real que en algunos casos sugieren desaceleración, aunque con muestras pequeñas. Incluso así, concluye que el debate ya cambió: casi nadie discute si esto transformará todo, sino cuándo y qué tan rápido.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
Meta negocia hasta USD $100.000 millones en chips AMD y acelera su apuesta por la “superinteligencia personal”
EEUU exige a Anthropic acceso irrestricto a Claude o romperá contratos y aplicará sanciones
OpenAI admite que la IA aún no penetra los procesos empresariales: apuesta por agentes con Frontier