IA Seguridad Software Tecnología

El gráfico que inquieta a la industria: agentes de IA ya reemplazan hasta 14,5 horas de trabajo experto

𝕏

Martes, 24 de Febrero, 2026

Por Canuto

Un gráfico de METR citado en “the SCARIEST chart in AI” por Wes Roth encendió las alarmas: no mide cuánto tarda la IA, sino cuántas horas de trabajo humano experto puede reemplazar. Con Claude Opus 4.6 saltando a 14,5 horas en la marca del 50% de éxito, el debate ya no es si la automatización se acelera, sino qué significa para el empleo, la seguridad y la velocidad con la que se reescribe el software del mundo.
***

El eje vertical del gráfico representa horas de trabajo humano experto reemplazables, no el tiempo real que tarda el modelo en ejecutar la tarea.
Claude Opus 4.6 aparece en 14,5 horas (a 50% de éxito), frente a Opus 4.5 cerca de poco más de 5 horas, lo que sugiere una aceleración reciente.
Roth recoge alertas de líderes del sector (Sam Altman, Dario Amodei y Elon Musk) y objeciones sobre métricas, dificultad de tareas, y los enormes rangos de incertidumbre.

🚨 Gráfico inquietante: la IA podría reemplazar hasta 14,5 horas de trabajo experto.

Claude Opus 4.6 lleva la automatización a niveles alarmantes con un 50% de éxito.

Expertos de la industria como Sam Altman y Elon Musk advierten sobre un futuro incierto en el empleo y la… pic.twitter.com/TrRCEu4BiW

— Diario฿itcoin (@DiarioBitcoin) February 25, 2026

En “the SCARIEST chart in AI”, el creador Wes Roth presentó un gráfico que, según su lectura, captura una tendencia inquietante: el salto acelerado en la capacidad de agentes de IA para completar tareas que normalmente exigen muchas horas de trabajo humano experto. La imagen, difundida tras la aparición de Claude Opus 4.6, fue descrita como una de las piezas más malinterpretadas del progreso reciente en IA.

Screenshot

El punto central del debate no es estético, sino metodológico. Roth insiste en que mucha gente se confunde al creer que el gráfico mide cuánto tarda la IA en realizar el trabajo. En realidad, el eje vertical representa cuántas horas le tomaría a un humano experto completar cada tarea, y el porcentaje refleja con qué frecuencia el agente logra completarla a un nivel comparable.

Para un público acostumbrado a medir productividad en “tiempo de ejecución”, el matiz cambia el significado. Una IA podría completar algo en segundos o en un día, y eso no es lo que se está graficando. Lo que se intenta reflejar es el volumen de labor humana potencialmente sustituible, algo con implicaciones directas para empleo, costos y ventajas competitivas.

Qué es METR y qué mide realmente el gráfico

Roth explica que METR es una organización sin fines de lucro enfocada en entender el avance de la IA de frontera. Su trabajo incluye evaluar modelos punteros y analizar amenazas y riesgos asociados a ese avance. Para ello, ensamblan cientos de tareas en áreas como ingeniería, programación, aprendizaje automático y ciberseguridad.

El procedimiento clave, según Roth, consiste en que expertos humanos se sientan a completar esas tareas. Si un especialista tarda, por ejemplo, 8 horas en resolver una tarea de ciberseguridad, ese número se convierte en la unidad del eje vertical. Luego se prueba si un agente de IA puede completar la misma tarea con éxito, bajo distintos umbrales.

El gráfico suele mostrarse con dos opciones: 50% y 80%. La marca del 50% se interpreta como el horizonte donde la IA “acierta” aproximadamente la mitad de las veces, en promedio, para tareas de esa duración humana. La versión del 80% eleva el estándar al exigir que el agente tenga éxito el 80% de las veces.

Ese detalle, remarca Roth, explica por qué el gráfico puede parecer menos impresionante para algunos críticos y mucho más alarmante para otros. Aun así, la lectura que propone es que, si un bloque de horas humanas queda “cubierto” por agentes con tasas de éxito crecientes, el impacto sobre la demanda de trabajo experto se vuelve inevitable, incluso si la adopción tarda en expandirse.

De Opus 4.5 a Opus 4.6: el salto que movió la curva

Roth señala que, para muchos observadores, el pánico empezó con Claude Opus 4.5. En el gráfico de referencia al 50% de éxito, el modelo habría llegado al punto de reemplazar tareas que tomarían a un humano experto poco más de 5 horas de trabajo. En su lectura, ese avance ya tensaba la línea de tendencia original.

Poco después, la llegada de Claude Opus 4.6 habría empujado el punto hasta 14,5 horas en ese mismo horizonte del 50%. Roth lo traduce a una intuición cotidiana: cerca de dos días laborales de trabajo “real”, sin contar pausas. Ese salto, dice, sugiere que la trayectoria podría estar cambiando respecto a lo que antes se consideraba un ritmo “ya rápido”.

El creador aporta una anécdota para ilustrar el tipo de flujo de trabajo que imagina detrás del número. Afirma que reconstruyó su sitio natural20.com, un agregador de noticias, principalmente usando agentes con Opus 4.6. Describe que dejó tareas corriendo mientras dormía y, en unas 4 horas, el agente completó despliegue, configuración, repositorio inicial y hosting, algo que estima podría tomarle “al menos” uno o dos días a un experto humano.

También narra un caso contable: una tarea que postergó por meses y que resolvió al exportar datos y enviarlos a un agente con Opus 4.6. Según su relato, el trabajo quedó terminado en 30 a 40 minutos mientras él jugaba un videojuego. Además, el agente habría creado contexto y un sistema persistente, incluyendo una base SQL, para automatizar el proceso hacia adelante.

La velocidad: de “cada 7 meses” a “cada 123 días”

Una de las afirmaciones más fuertes en el análisis de Roth es el cambio en el ritmo de duplicación. Explica que, cuando circularon versiones previas del gráfico, muchos asumieron que las capacidades se duplicaban cada 7 meses. Incluso ese ritmo ya implicaba una aceleración notable para sectores productivos y para el debate sobre riesgos.

Sin embargo, Roth sostiene que, si se observa desde 2023 en adelante, la duplicación estaría ocurriendo aproximadamente cada 123 días, es decir, cerca de cada 4 meses. En su argumento, el progreso no solo continúa, sino que se acelera. Y eso alimenta la percepción de que la “línea” anterior ya no ajusta bien a los puntos recientes.

Roth menciona a Adam Binksmith, vinculado a AI Digest y al proyecto AI Village, como una de las primeras voces que vio señales de una aceleración mayor a la de “7 meses”. En su recuento, ese aviso se anticipó a la reacción actual. También sugiere que dentro de laboratorios y equipos técnicos se percibe tensión por el ritmo de cambio.

El debate sobre velocidad importa para el mundo cripto y financiero por una razón práctica: el software es infraestructura de mercados. Si herramientas de programación se automatizan con rapidez, la iteración de productos, estrategias y sistemas de trading puede acelerarse. Al mismo tiempo, aumentan riesgos operativos, de seguridad, y de asimetría entre quienes dominan agentes y quienes no.

Alertas y frases que avivan el debate: Altman, Musk y Amodei

Roth recoge declaraciones atribuidas a líderes del sector. Cita a Sam Altman en una entrevista fechada el 20 de febrero de 2026, diciendo: “The world is not prepared”. En el relato, Altman agrega que se aproximan modelos “extremadamente capaces”, con un despegue más rápido de lo que él esperaba, y que eso resulta estresante y genera ansiedad.

En el mismo repaso, Roth menciona que “cada vez más personas” sostienen que la programación ya está resuelta. Alude al creador de Claude Code, quien habría dicho en un pódcast que “coding is solved” y que la forma en que se enseña a programar “se acabó”. También atribuye a Altman una idea similar: que escribir C++ a mano quedó obsoleto, y que la distancia temporal entre AGI y superinteligencia podría ser corta dada la trayectoria.

Roth añade dos referencias más: afirma que Elon Musk dijo en enero que ya entramos en la singularidad y que 2026 sería “el año de la singularidad”. Y comenta que Dario Amodei, en el pódcast de Dark Cash Patel, habría dicho que estamos cerca del “end game” del exponencial, no en el sentido de estancamiento, sino de un tramo final donde la automatización se vuelve dominante.

En ese contexto, Roth menciona una frase atribuida a Amodei sobre Anthropic: “100% of today’s software engineering tasks are done by the models”. La interpretación que ofrece es directa: si un laboratorio de frontera con cultura fuertemente técnica ya usa IA para la mayoría o casi todas sus tareas de ingeniería de software, la automatización del coding sería un hecho, aunque su difusión al resto de la economía tome tiempo.

Críticas, incertidumbre y la discusión sobre cómo medir “dificultad”

El propio Roth reconoce que las métricas son complejas y que el gráfico se presta a interpretaciones equivocadas. Cita a una integrante del equipo de METR, Sydney von Arx, con una advertencia: “You should absolutely not tie your life to this graph, but also I bet that this trend is going to hold”. La frase resume una postura cauta, pero no complaciente.

Entre las objeciones, Roth menciona a Inolua Deborah Raji, de UC Berkeley, quien cuestiona que “más tiempo” implique necesariamente “más dificultad”. La observación apunta a un problema clásico: humanos y máquinas no comparten los mismos puntos fuertes. Algunas tareas largas para humanos pueden ser mecánicas y fáciles para un agente, y otras breves pueden requerir juicio y contexto difíciles de replicar.

Otra crítica que presenta Roth es la idea de que un modelo puede mejorar en coding sin mejorar “mágicamente” en otras áreas. Él contraargumenta que investigadores de Anthropic han descrito entrenamiento por refuerzo en múltiples dominios y que observaron “crossover”, es decir, mejoras que se transfieren. En su ejemplo, entrenar en programación podría levantar capacidades en matemáticas, y eso luego impactaría contabilidad o tareas afines.

También subraya el tamaño de los rangos de incertidumbre. Para Opus 4.6, el punto central sería 14,5 horas, pero el intervalo podría ir de 6 a 98. Si el rendimiento real se acerca al extremo alto, el significado cambia por completo: ya no serían horas, sino semanas de trabajo humano. Incluso el extremo bajo seguiría siendo transformador, sostiene.

El “sobrecolgante” de adopción: agentes potentes, usuarios que no los sueltan

Roth comenta hallazgos atribuidos a Anthropic sobre el uso de agentes, centrados en sesiones autónomas de herramientas como Claude Code. Una conclusión relevante es que esas sesiones se volvieron más largas con el tiempo, incluso sin depender de nuevos lanzamientos de modelos. En esa lectura, el factor que empuja la autonomía no sería solo la tecnología, sino la confianza del usuario.

Según lo descrito, usuarios avanzados tienden a permitir que el agente corra por períodos más extensos, pero también lo interrumpen más cuando detectan que se desvía. Es una mezcla de soltura y supervisión. Esa dinámica encaja con la experiencia de quienes usan agentes para programar, investigar o automatizar procesos: se gana velocidad, pero el control sigue siendo un recurso escaso.

Con esa evidencia, Roth plantea la metáfora de un “Bugatti” que se conduce a 10 millas por hora. Los modelos serían extremadamente capaces, pero la mayoría de las personas no los utiliza al límite. En términos de impacto económico, eso sugiere una brecha: el potencial productivo crece más rápido que la capacidad social de integrarlo en flujos de trabajo, marcos de seguridad y hábitos laborales.

Por último, advierte sobre fallas persistentes: alucinaciones y errores “tontos” que aún aparecen. Roth sostiene que el extremo superior de capacidad sigue creciendo, y que se buscarán mitigaciones, ya sea a nivel de modelo o con guardarraíles externos. Bajo esa lógica, mientras el beneficio sea enorme, la presión por resolver confiabilidad y verificación solo aumentará.

Proyecciones y el impacto acumulativo de automatizar procesos

Un punto que Roth cree que el gráfico no captura del todo es el efecto acumulativo. Muchas tareas no serían “one-off”, sino que crearían automatizaciones permanentes. En sus ejemplos, el agente no solo completó un trabajo puntual, sino que dejó sistemas listos para operar 24/7, como su agregador de noticias que clasifica tendencias con una escala de 1 a 100 usando métricas como Google Trends y la actividad en X.

Para ilustrar el cambio, propone una analogía histórica con la imprenta. Antes, pocos escribían y existían los escribas como profesión. Luego, la alfabetización se masificó y “ser escriba” dejó de ser un rol dominante. En su lectura, la programación podría vivir un proceso similar: no todo el mundo será un gran creador de software, pero casi cualquiera podrá “escribir” con ayuda de agentes.

En el plano de predicción, Roth afirma que, si la tasa de progreso que sugiere METR se mantiene, los modelos alcanzarían la capacidad de reemplazar un mes de trabajo humano hacia inicios de 2027, y alrededor de febrero de 2027 se hablaría de “tres semanas laborales”. También menciona proyecciones de METR: 99% de la investigación y el desarrollo en IA automatizados para 2032, y un aumento de eficiencia entre 1.000x y 10.000.000x para 2035.

El balance final que presenta es doble. El caso optimista: tendencias que se sostuvieron por más de cinco años en distintas familias de modelos, con puntos recientes que insinúan aceleración. El caso escéptico: barras de error enormes, umbrales de éxito del 50%, y mediciones del mundo real que en algunos casos sugieren desaceleración, aunque con muestras pequeñas. Incluso así, concluye que el debate ya cambió: casi nadie discute si esto transformará todo, sino cuándo y qué tan rápido.

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín

𝕏

Artículos Relacionados

Empresas

Anthropic desata alarma en IA con Mythos y un salto de ingresos a USD $30.000 millones

Análisis de mercado

Tao cae 18% en 24 horas ante volumen explosivo

Empresas

Meta AI expone a sus usuarios en Instagram y reabre el debate sobre privacidad

Empresas

Anthropic suspendió y luego restituyó la cuenta del creador de OpenClaw en Claude

Publicidad

Las Top 10 Criptos (Volumen)

USDT	Tether USDt	0,03%	$81,54 mmd
BTC	Bitcoin	1,1%	$36,23 mmd
ETH	Ethereum	2,32%	$16,29 mmd
SOL	Solana	1,7%	$13,06 mmd
USDC	USDC	-0,01%	$10,04 mmd
XRP	XRP	0,66%	$1,95 mmd
BNB	BNB	0,35%	$1,74 mmd
USD1	World Liberty Financial USD	-0,0%	$1,3 mmd
DOGE	Dogecoin	1,1%	$1,25 mmd
TAO	Bittensor	-10,99%	$1,1 mmd

DiarioBitcoin.com

Criptos Ganadoras

RAVE	RaveDAO	69,86%	$1,74
DASH	Dash	16,06%	$44,46
DEXE	DeXe	11,11%	$9,33
ARB	Arbitrum	7,16%	$0,116 757
DCR	Decred	6,0%	$23,5
M	MemeCore	5,76%	$2,77
WLD	Worldcoin	5,5%	$0,283 888
EDGE	edgeX	4,79%	$1,01
SIREN	siren	4,43%	$0,693 668
TON	Toncoin	3,95%	$1,3

DiarioBitcoin.com

Criptos Perdedoras

TAO	Bittensor	-10,99%	$259,37
WLFI	World Liberty Financial	-6,59%	$0,080 654
CC	Canton	-4,68%	$0,146 178
MORPHO	Morpho	-4,51%	$1,78
RENDER	Render	-3,34%	$1,98
ZRO	LayerZero	-3,27%	$1,93
TRUMP	OFFICIAL TRUMP	-2,75%	$2,84
POL	Polygon (prev. MATIC)	-2,45%	$0,085 644
FET	Artificial Superintelligence Alliance	-2,34%	$0,237 69
ALGO	Algorand	-2,14%	$0,109 428

DiarioBitcoin.com