Anthropic: la experiencia de dominio pesa más que saber programar con agentes de IA

𝕏

Hace 10 minutos

Por Canuto

Un nuevo análisis de Anthropic sobre cerca de 400.000 sesiones de Claude Code sugiere que la IA para programar no elimina la necesidad de experiencia humana. Más bien, desplaza el valor hacia quienes entienden mejor el problema, incluso si no son ingenieros de software.
***

Anthropic analizó cerca de 400.000 sesiones de Claude Code entre octubre de 2025 y abril de 2026.
La firma encontró que los usuarios suelen decidir qué construir, mientras la IA toma la mayoría de decisiones sobre cómo ejecutarlo.
El éxito de las sesiones aumenta con la experiencia de dominio, y no necesariamente con formación formal en programación.

🚨 La experiencia de dominio es clave en el uso de agentes de IA según Anthropic.

Un análisis de 400,000 sesiones muestra que los usuarios sin habilidades de programación son igual de efectivos.

70% de las decisiones de planificación son humanas.

El éxito aumenta con la… pic.twitter.com/fcMOdJlTnG

— Diario฿itcoin (@DiarioBitcoin) June 17, 2026

Una radiografía temprana del trabajo con agentes de IA

Anthropic presentó un nuevo estudio sobre el uso de Claude Code que ofrece una fotografía poco habitual de cómo colaboran humanos y agentes de inteligencia artificial en tareas técnicas. El trabajo se basa en un análisis preservador de privacidad de cerca de 400.000 sesiones realizadas por unas 235.000 personas entre octubre de 2025 y abril de 2026.

El documento, titulado Agentic coding and persistent returns to expertise, fue firmado por Zoe Hitzig, Maxim Massenkoff, Eva Lyubich, Ryan Heller y Peter McCrory. Su objetivo fue medir qué tareas se hacen con Claude Code, quiénes las hacen y con qué nivel de éxito terminan.

La investigación parte de una pregunta clave para el mercado laboral tecnológico. Si los agentes ya pueden ejecutar cadenas largas de acciones y resolver obstáculos por sí mismos, entonces importa entender si el valor del trabajo se está desplazando desde la implementación hacia el criterio humano.

Según los hallazgos, la división del trabajo es clara en la sesión típica. Las personas suelen tomar la mayoría de las decisiones de planificación, es decir, definen qué se quiere lograr, mientras Claude toma la mayor parte de las decisiones de ejecución, o sea, cómo hacerlo.

En promedio, los usuarios toman cerca del 70% de las decisiones de planificación y apenas el 20% de las decisiones de ejecución. Dicho de otro modo, el humano dirige el objetivo general y el agente absorbe buena parte del trabajo operativo dentro de la sesión.

Ese patrón importa porque ayuda a entender qué parte del empleo podría verse transformada primero. Si la implementación se automatiza más rápido que el juicio, el diferencial competitivo podría recaer menos en saber escribir código y más en entender bien el problema de negocio, legal, científico o financiero que se intenta resolver.

Qué hacen realmente los usuarios con Claude Code

Anthropic clasificó cada sesión en uno de nueve modos de trabajo. Cuatro de ellos implican escribir o mantener código de forma directa: construir algo nuevo, arreglar algo roto, probar código y orquestar otros agentes o pipelines automatizados.

También identificó sesiones centradas en operar software, como desplegar, configurar, ejecutar pipelines o monitorear sistemas. A eso se suman categorías orientadas a entender sistemas existentes o planificar cambios antes de implementarlos.

Las dos categorías finales se alejan del código como producto principal. Una corresponde al análisis de datos y otra a la comunicación mediante presentaciones u otros documentos en prosa, donde el software es un medio y no necesariamente el resultado final.

La distribución fue reveladora. Cerca del 56% de las sesiones consistieron en escribir, arreglar, probar u orquestar código, con 25% dedicadas a construir y 26% a arreglar problemas, mientras probar y orquestar representaron en conjunto 5%.

Operar software explicó 17% de las sesiones. La planificación y exploración sumaron 14%, y el análisis o la redacción de prosa alcanzaron 13%, lo que refuerza la idea de que estos agentes ya no se usan solo para programar funciones o corregir errores.

La firma validó estas clasificaciones contrastando la lectura de transcripciones con telemetría automática, como adiciones o eliminaciones de líneas de código. Según el estudio, hubo alta coincidencia entre ambas fuentes y más del 90% de las sesiones etiquetadas como creación o modificación de código mostraron cambios efectivos en la telemetría.

Más autonomía para la IA, pero no sin dirección humana

El informe también examinó cuánta autonomía tiene Claude dentro de una sesión real. Para hacerlo, separó las decisiones en planificación y ejecución, y luego atribuyó cada una al usuario o al agente mediante un clasificador basado en el contenido de la conversación.

El resultado fue consistente con la intuición que ya empieza a instalarse en muchas empresas. La persona conserva el control estratégico, pero el agente asume la mayor parte del trabajo táctico, desde elegir archivos hasta redactar código, ejecutar comandos o decidir ciertos detalles de implementación.

Anthropic midió además cuántas acciones realiza Claude por cada indicación humana. En una sesión típica hay unos cuatro turnos de intercambio, y cada prompt del usuario desencadena una cadena de alrededor de 10 acciones ejecutadas por el agente, aunque en algunos casos la cifra supera 100.

En cada turno, Claude lee archivos, edita código, ejecuta comandos y produce en promedio unas 2.400 palabras de salida. Cuando el usuario conserva más del 80% del control sobre la ejecución, el agente realiza menos acciones por turno, cerca de ocho.

Cuando Claude toma más del 80% de las decisiones de planificación, la actividad crece aún más. En esos casos, llega a unas 16 acciones por turno, lo que sugiere que una mayor delegación expande el volumen de trabajo autónomo, aunque no necesariamente elimina la necesidad de supervisión humana.

Para lectores menos familiarizados con esta dinámica, el hallazgo es relevante porque rompe una simplificación común. No se trata solo de “pedir código” y recibirlo, sino de una colaboración iterativa donde la calidad del resultado depende de cómo el usuario define, corrige y encauza el trabajo del agente.

La experiencia de dominio pesa más que la habilidad para programar

Uno de los ejes más importantes del estudio fue la experiencia del usuario en la tarea concreta. Anthropic aclara que esta experiencia no equivale a un cargo laboral ni a un nivel general de habilidad, sino a conocimiento específico del problema abordado en esa sesión.

Un ingeniero senior puede ser principiante en Rust si es la primera vez que trabaja con ese lenguaje. A la vez, un contador sin formación en Python puede comportarse como experto si sabe exactamente qué reglas debe seguir un script y detecta errores en casos límite del cierre contable.

El clasificador de experiencia usó tres señales principales. Midió cuán precisa era la instrucción inicial, qué le pedía el usuario verificar al agente y si era el humano quien corregía a Claude o si ocurría al revés.

Las diferencias fueron marcadas. En sesiones típicas de principiantes, cada prompt del usuario generó alrededor de cinco acciones de Claude y unas 600 palabras de salida, mientras que en sesiones de expertos la cifra subió a 12 acciones y unas 3.200 palabras.

Según el análisis, esa brecha apareció dentro de cada tipo de trabajo y cada banda de valor de tarea. Incluso controlando por modo de trabajo, valor estimado, mes, ocupación y familia de modelo, las tendencias siguieron siendo estadísticamente significativas, con aumentos de 9% en acciones y 13% en producción por cada nivel adicional de experiencia.

La lectura de fondo es directa. Cuanto mejor entiende una persona el problema, más trabajo útil logra extraer del agente con cada instrucción, y eso no depende necesariamente de pertenecer a una profesión de software.

Quiénes usan la herramienta y cómo cambió el trabajo en siete meses

Para aproximarse al perfil ocupacional de los usuarios, Anthropic infirió la profesión a partir del contexto de cada transcripción. El sistema mapeó las sesiones a 23 grandes grupos ocupacionales de la Clasificación Ocupacional Estándar del Bureau of Labor Statistics.

La firma aclara que programar no fue usado como prueba automática de que alguien trabajara en software. Si un abogado desarrollaba un script para revisar contratos, la sesión se clasificaba en ocupaciones legales y no en computación.

Con esa metodología, fue posible inferir la ocupación en cerca del 70% de las sesiones. El grupo más grande fue Computación y Matemáticas, pero luego aparecieron Operaciones Comerciales y Financieras, Artes, Diseño y Medios, Gestión, y Ciencias de la Vida, Física y Sociales.

Entre los grupos no relacionados con software, los de crecimiento más rápido en la muestra fueron gestión, ventas y ocupaciones legales. Ese dato refuerza la idea de que la programación asistida por agentes comienza a difundirse como una capacidad transversal y no exclusiva de desarrolladores.

La composición del trabajo también cambió con fuerza entre octubre de 2025 y abril de 2026. La proporción de sesiones dedicadas a arreglar código roto cayó de 33% a 19%, casi la mitad en siete meses.

En paralelo, operar software subió de 14% a 21%. Las tareas de redacción y análisis de datos aproximadamente se duplicaron, pasando de cerca de 10% a 20%, lo que sugiere una transición hacia usos más integrales de extremo a extremo.

Anthropic estimó además el valor económico de las sesiones comparándolas con publicaciones reales en mercados freelance. Con esa métrica, el valor de la sesión promedio aumentó 27% entre octubre y abril.

La subida se sostuvo en muchos tipos de trabajo. Las tareas de construcción, operación y arreglo crecieron en valor alrededor de 43%, 34% y 32%, respectivamente, aunque la empresa advirtió que esas cifras deben leerse como comparaciones relativas y no como precios literales en dólares.

El éxito sube con la experiencia y la brecha más grande está entre novatos e intermedios

Para medir el éxito, Anthropic recurrió a dos definiciones. La primera fue el “éxito juzgado”, donde un clasificador lee la transcripción completa y decide si la persona logró lo que se propuso hacer, lo hizo parcialmente, falló o no tenía un objetivo claro.

La segunda fue el “éxito verificado”, que exige tanto un juicio positivo como evidencia verificable, como pruebas aprobadas, actividad en Git coherente con el trabajo realizado o confirmaciones explícitas del usuario. Las sesiones sin objetivo claro, cerca de 7,7% de la muestra, fueron excluidas del análisis final de resultados.

El patrón central fue inequívoco. Una sesión calificada como principiante alcanzó éxito verificado 15% de las veces y al menos éxito parcial 77% de las veces, mientras las sesiones intermedias o superiores lograron éxito verificado entre 28% y 33% y éxito parcial entre 91% y 92%.

La mayor mejora se concentró al pasar de principiante a intermedio. Entre intermedio y experto, la pendiente se redujo, lo que sugiere que un dominio funcional del problema captura gran parte del beneficio, aunque una especialización profunda todavía aporta algo más.

La misma lógica apareció cuando la sesión enfrentó dificultades, como errores, pruebas fallidas, múltiples reintentos o frustración del usuario. Entre esas sesiones problemáticas, el éxito verificado subió de 4% para principiantes a 15% para expertos.

Si se usa una definición más flexible, el éxito al menos parcial entre sesiones con problemas fue de 60% para principiantes y de 80% a 81% para usuarios intermedios a expertos. El dato sugiere que la experiencia no solo mejora el resultado ideal, sino también la capacidad de recuperarse cuando algo sale mal.

Anthropic también analizó el abandono. Definió como abandonada una sesión problemática que además terminaba en fracaso sin escribir líneas de código, y allí la distancia fue mucho mayor: 19% entre principiantes frente a 5% a 7% para el resto.

La ocupación importa menos de lo esperado y eso tiene implicaciones laborales

El estudio encontró que los usuarios de ocupaciones relacionadas con software alcanzaron éxito verificado en alrededor de 30% de sus sesiones en general. En profesiones no vinculadas al software, la cifra fue de 26%.

Cuando se restringe el análisis a sesiones que efectivamente añaden o modifican al menos una línea de código, los resultados fueron 34% para ocupaciones de software y 29% para las demás. La diferencia existe, pero es más estrecha de lo que muchos podrían suponer.

Con la definición más flexible de éxito, la brecha se vuelve todavía menor. En sesiones que producen código, ambos grupos alcanzaron al menos éxito parcial 89% y 88% de las veces, respectivamente.

Anthropic señaló que esa distancia de cinco puntos no se amplió ni se redujo durante los siete meses estudiados. Las tasas de éxito crecieron en ambos grupos, lo que sugiere una mejora general de la herramienta sin una ventaja explosiva exclusiva para ingenieros de software.

De hecho, entre las 10 mayores ocupaciones del conjunto de datos, todas quedaron dentro de siete puntos porcentuales de los ingenieros de software en éxito de codificación. Las ocupaciones de gestión aparecieron incluso ligeramente por encima en éxito verificado.

La firma advirtió que ese resultado podría reflejar habilidades de dirección transferibles a la supervisión de agentes, aunque también reconoció un posible sesgo metodológico. Como la verificación depende en parte de confirmaciones explícitas, es posible que los gerentes expresen con más frecuencia que obtuvieron el resultado buscado.

El trasfondo económico del informe es importante para sectores como IA, software empresarial e incluso cripto. Si producir herramientas, analizar datos o automatizar procesos empieza a integrarse en el trabajo cotidiano de múltiples profesiones, entonces la frontera entre usuario final y constructor técnico se vuelve más difusa.

Lo que este estudio sugiere sobre el futuro del trabajo con IA

Anthropic plantea que la codificación agentic podría estar sustituyendo parte del trabajo intensivo en implementación. Al mismo tiempo, estaría premiando más a quienes poseen un entendimiento claro de los problemas que intentan resolver.

La lectura más fuerte del informe es que los agentes no sustituyen la experiencia de dominio. Más bien la amplifican, porque una persona con criterio sólido en su área puede hacer que el sistema produzca trabajo técnico de mayor calidad con menos instrucciones.

Eso abre una puerta para profesionales de muchos campos que antes dependían por completo de equipos técnicos para ejecutar automatizaciones, análisis o herramientas internas. Pero también marca un límite, ya que quienes no entienden bien su propio problema parecen extraer mucho menos valor de la misma tecnología.

El estudio insiste en que estos hallazgos son preliminares. La empresa reconoce que no puede medir el resultado real en el mundo, como si el código creado termina usándose o descartándose, ni el valor económico efectivo generado por cada sesión.

También admite que dejó fuera una parte sustancial de la actividad no interactiva y que todas las clasificaciones dependen de modelos que leen transcripciones. Aunque las etiquetas se contrastaron con telemetría independiente y con un modelo de referencia fuerte, la validación a gran escala sigue siendo difícil.

Aun con esas limitaciones, el trabajo ofrece una señal temprana relevante. Si con el tiempo los retornos a la experiencia empiezan a caer, eso podría indicar que los modelos están absorbiendo parte del juicio esencial que hoy todavía aportan los usuarios humanos.

Si, en cambio, sigue creciendo la proporción de sesiones exitosas entre trabajadores fuera del software, la consecuencia podría ser otra. El desarrollo de software dejaría de verse como el producto exclusivo de una ocupación y se convertiría cada vez más en una capacidad integrada al trabajo ordinario en muchos sectores.

Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín

𝕏

USDT	Tether USDt	0,0%	$69,05 mmd
BTC	Bitcoin	-2,01%	$30,64 mmd
ETH	Ethereum	-2,6%	$13,63 mmd
USDC	USDC	0,01%	$11,81 mmd
SOL	Solana	-2,35%	$2,58 mmd
USD1	World Liberty Financial USD	0,02%	$1,96 mmd
XRP	XRP	-2,72%	$1,92 mmd
BNB	BNB	-0,82%	$1,28 mmd
HYPE	Hyperliquid	-2,68%	$1,21 mmd
WLD	Worldcoin	-2,19%	$1,08 mmd

ETHFI	ether.fi	12,68%	$0,383 493
ENA	Ethena	10,81%	$0,095 309
SPX	SPX6900	9,24%	$0,425 768
ASTER	Aster	8,18%	$0,714 777
WLFI	World Liberty Financial	4,69%	$0,062 803
XLM	Stellar	3,97%	$0,226 661
ALGO	Algorand	3,78%	$0,098 451
JST	JUST	1,72%	$0,083 619
TRX	TRON	1,45%	$0,321 329
LIT	Lighter	1,36%	$1,77

BEAT	Audiera	-27,67%	$1,78
DEXE	DeXe	-22,19%	$14,55
H	Humanity	-8,6%	$0,222 756
NIGHT	Midnight	-7,58%	$0,030 314
M	MemeCore	-7,03%	$2,94
AERO	Aerodrome Finance	-6,75%	$0,439 328
CRV	Curve DAO Token	-6,39%	$0,227 801
ZRO	LayerZero	-5,7%	$1,01
NEAR	NEAR Protocol	-5,68%	$2,18
ZEC	Zcash	-5,15%	$479,92

Anthropic: la experiencia de dominio pesa más que saber programar con agentes de IA

Una radiografía temprana del trabajo con agentes de IA

Qué hacen realmente los usuarios con Claude Code

Más autonomía para la IA, pero no sin dirección humana

La experiencia de dominio pesa más que la habilidad para programar

Quiénes usan la herramienta y cómo cambió el trabajo en siete meses

El éxito sube con la experiencia y la brecha más grande está entre novatos e intermedios

La ocupación importa menos de lo esperado y eso tiene implicaciones laborales

Lo que este estudio sugiere sobre el futuro del trabajo con IA

Suscríbete a nuestro boletín

Artículos Relacionados

TikTok triplica a YouTube en videos de “AI slop”, según informe de Kapwing

OpenAI prueba simulaciones de despliegue para predecir fallos de IA antes del lanzamiento

OpenAI afirma que GPT-5.4 mejoró una reacción clave para descubrir fármacos

La IA abierta acelera su carrera global mientras China, OpenAI y Microsoft redibujan el poder