Anthropic publicó un análisis detallado de la aceleración del desarrollo de IA impulsada por los propios sistemas de IA. Los datos internos muestran que Claude ya escribe más del 80 % del código, multiplica por ocho la productividad por ingeniero y es capaz de ejecutar experimentos de investigación de forma autónoma. La tendencia apunta hacia la mejora recursiva, un hito que podría transformar la economía y la supervivencia humana, pero para el cual las instituciones aún no están preparadas.
***
- Claude generó más del 80 % del código fusionado en Anthropic durante mayo de 2026 y los ingenieros envían hoy 8 veces más líneas de código por trimestre que en 2024.
- La capacidad para completar tareas de larga duración se duplica cada cuatro meses: los sistemas ya gestionan faenas de 12 horas y los expertos pronostican que este año alcanzarán trabajos de días completos.
- El artículo advierte tres futuros posibles y subraya la urgencia de crear mecanismos globales de verificación para una pausa coordinada antes de que la mejora recursiva se vuelva incontrolable.
🚨 La IA ya escribe el 80% del código en Anthropic 🚨
Claude, el asistente de IA, multiplica por ocho la productividad de los ingenieros.
Las tareas de larga duración se duplican cada cuatro meses.
Si sigue la tendencia, sistemas de IA se diseñarán a sí mismos sin… pic.twitter.com/g5QME4L171
— Diario฿itcoin (@DiarioBitcoin) June 4, 2026
El Instituto Anthropic ha revelado datos internos que muestran cómo la inteligencia artificial está transformando el propio desarrollo de la IA, en un documento titulado When AI builds itself. La publicación describe un proceso de mejora recursiva que, de mantenerse la tendencia, podría conducir a sistemas capaces de diseñar autónomamente a sus sucesores sin intervención humana directa. Se trata de un escenario que, según los autores, “podría llegar antes de que la mayoría de las instituciones estén preparadas”.
La investigación se apoya en benchmarks públicos y en estadísticas recolectadas dentro de Anthropic durante los últimos tres años. Los ingenieros de la compañía envían hoy, en promedio, ocho veces más código por trimestre que entre 2021 y 2025. Solo en mayo de 2026, más del 80 % del código que se fusionó en la base de producción fue escrito directamente por Claude, el asistente de IA de la empresa.
De los chatbots a los agentes autónomos
Anthropic traza una línea temporal que comienza en 2021, cuando los humanos escribían casi todo el código en sus laptops, y llega hasta 2026, momento en que los agentes de IA ejecutan experimentos, delegan tareas a otros agentes y corrigen errores de forma independiente. En el camino, los agentes de codificación primero generaban fragmentos que los ingenieros copiaban y pegaban; hoy pueden escribir archivos completos, probarlos y desplegarlos.
La duración de las tareas que los modelos completan con fiabilidad se ha duplicado aproximadamente cada cuatro meses. En marzo de 2024, Claude Opus 3 manejaba faenas que a un humano le tomaban cuatro minutos. Un año después, Sonnet 3.7 gestionaba trabajos de una hora y media, y en mayo de 2026, Opus 4.6 alcanzó tareas de doce horas. Si la progresión no se frena, en 2027 los sistemas podrían encargarse de trabajos que hoy requieren semanas de esfuerzo humano.
La evidencia de los benchmarks
Los resultados en pruebas estandarizadas confirman la aceleración. El benchmark SWE-bench, que evalúa la capacidad de resolver errores reales en bases de código abierto, pasó de puntuaciones de un solo dígito a saturarse en apenas dos años. Algo similar sucedió con CORE-Bench, diseñado para medir si un modelo puede reproducir investigaciones existentes: en 2024 la tasa de éxito era del 20 % y quince meses después ya rozaba el 100 %.
Por su parte, la organización METR, especializada en medir cuán bien los modelos completan tareas de larga duración, encontró que Claude Mythos Preview podía trabajar de forma autónoma durante al menos 16 horas, situándose “en el extremo superior de lo que METR puede medir sin nuevas tareas”. Estos indicadores externos, combinados con los datos internos, pintan un panorama de mejora sostenida y multidimensional.
No obstante, los benchmarks públicos no capturan el impacto real sobre la velocidad a la que se desarrolla la propia IA. Para eso, Anthropic tuvo que mirar hacia adentro y medir cómo está cambiando el trabajo de sus investigadores e ingenieros.
El escritorio de Anthropic: ocho veces más código y errores cazados por IA
El salto más llamativo se produjo con el lanzamiento de Claude Code en febrero de 2025. Antes de esa fecha, menos del 10 % del código atribuible a Claude llegaba a producción. Tras la llegada del agente, la cifra se disparó hasta superar el 80 % en mayo de 2026. La productividad por ingeniero, medida en líneas de código fusionadas por día, se mantuvo estable entre 2021 y 2024, empezó a crecer en 2025 y se volvió aún más pronunciada en 2026, cuando los modelos empezaron a operar con largos horizontes autónomos.
La compañía admite que las líneas de código son una métrica imperfecta porque privilegian cantidad sobre calidad. Sin embargo, subraya que el incremento coincide con la percepción subjetiva de ganancias enormes. En una encuesta interna de marzo de 2026, el empleado mediano estimó que producía alrededor de cuatro veces más salida con Mythos Preview que sin acceso a modelos de IA.
Más revelador aún es el cambio en la calidad del código y en la detección de errores. La tasa a la que el personal debe corregir o tomar el control de una tarea que Claude inició se desplomó de forma constante durante el último año, incluso en las sesiones más abiertas. En mayo de 2026, Claude alcanzó un 76 % de éxito en ese tipo de tareas, 50 puntos porcentuales más que seis meses antes. Un revisor automatizado de Claude detectó, en un análisis retrospectivo, aproximadamente un tercio de los errores que habían provocado incidentes en claude.ai, fallos que ingenieros de primer nivel habían pasado por alto.
Investigación: la máquina ya ejecuta los experimentos
Anthropic también midió la capacidad de Claude para optimizar código de entrenamiento de un pequeño modelo de IA. En mayo de 2025, Opus 4 logró una mejora de velocidad de aproximadamente 3x respecto al código base. Once meses después, Mythos Preview alcanzaba un rendimiento ~52x. Para ponerlo en contexto: un investigador humano calificado necesitaría entre cuatro y ocho horas para alcanzar una mejora de 4x. Claude ya es sobrehumano en ese subproceso de investigación.
En abril de 2026, la compañía demostró por primera vez que agentes potenciados por Claude podían ejecutar un proyecto de investigación abierto de principio a fin. Se les encomendó un problema real de seguridad: si un modelo más débil puede supervisar de manera confiable a uno más fuerte. Los agentes, trabajando durante 800 horas acumulativas y con un costo de cómputo de USD $18.000, lograron recuperar el 97 % de la brecha entre el suelo y el techo de rendimiento, mientras que dos investigadores humanos recuperaron solo el 23 % en aproximadamente una semana.
Los humanos aún eligieron el problema y definieron la rúbrica de puntuación, pero cada experimento fue diseñado por los agentes. El hallazgo sugiere que la ventaja comparativa del ser humano se está reduciendo drásticamente incluso en las fases creativas del ciclo de I+D.
Un análisis de sesiones reales de Claude Code entre enero y marzo de 2026 mostró además que el mejor modelo disponible superó el juicio de los investigadores humanos el 64 % de las veces al elegir el siguiente paso en una investigación, frente al 51 % que alcanzaba Opus 4.5 en noviembre de 2025. Aunque la muestra se centró en momentos donde se sabía que la decisión humana tenía margen de mejora, la tendencia indica que los modelos están adquiriendo el “gusto de investigación” necesario para eventualmente dirigir estudios por sí mismos.
El cuello de botella que se desplaza
El progreso descrito encuentra su freno en la ley de Amdahl: acelerar una parte del proceso solo traslada el cuello de botella a otra. Anthropic ya lo sufre en carne propia. A medida que Claude genera más código, la revisión humana se convierte en el nuevo factor limitante. El mismo fenómeno aparece fuera de la ingeniería: la explosión de nuevas ideas, herramientas y simulaciones supera la capacidad de la organización para asimilarlas.
El artículo del Instituto Anthropic alerta sobre la necesidad de que las organizaciones aprendan a identificar y resolver estos embudos con velocidad, porque esa habilidad podría convertirse en la más crítica para cualquier empresa o laboratorio que quiera competir en la nueva carrera.
Tres futuros posibles según Anthropic
Los autores plantean tres escenarios. El primero supone que la tendencia exponencial se estanque por una barrera arquitectónica, energética o de suministro de chips. Incluso si las capacidades se congelaran al nivel actual, los cambios serían profundos: Project Glasswing ya encontró más de diez mil vulnerabilidades de alta y crítica severidad en las primeras semanas de funcionamiento de Mythos Preview, desplazando el cuello de botella de la detección al parcheo.
El segundo escenario, que consideran el más probable, contempla ganancias de eficiencia acumulativas donde los humanos mantienen la dirección de la investigación pero delegan casi todo el trabajo táctico a la IA. Empresas de cien personas podrían alcanzar la productividad de organizaciones de cien mil. Aunque revolucionaría el trabajo del conocimiento, también habilitaría sistemas de vigilancia autoritaria y campañas de manipulación masiva imposibles de replicar sin IA.
El tercer escenario, y el más inquietante, es la mejora recursiva completa: sistemas de IA capaces de diseñar, entrenar y refinar a sus sucesores sin intervención humana sustancial. El ritmo del progreso quedaría atado exclusivamente al cómputo disponible y a las eficiencias algorítmicas. En este mundo, los humanos se limitarían a supervisar un “laboratorio virtual” autónomo, pero los riesgos de desalineación se acumularían de manera impredecible, pudiendo llevar a la pérdida de control.
¿Es posible y deseable frenar?
Anthropic sostiene que, si fuera posible ralentizar el desarrollo de manera efectiva para dar tiempo a la investigación de alineación y a la adaptación social, probablemente sería algo bueno. Sin embargo, advierte que una desaceleración unilateral solo cambiaría al líder sin resolver el problema, y que sin mecanismos de coordinación global cualquier pausa creíble resulta extremadamente difícil.
La detectabilidad de los entrenamientos de modelos es mucho más compleja que la verificación de armas nucleares: las entradas son de propósito general, los entrenamientos se pueden ocultar y el incentivo para desertar en secreto es enorme. Construir un régimen de verificación equivalente al de los tratados de control de armas tomaría décadas, un tiempo que la velocidad de la mejora recursiva ya no concede.
El Instituto Anthropic anuncia que en los próximos meses organizará conversaciones con responsables de políticas, investigadores, sociedad civil y otras compañías para explorar opciones de coordinación y deliberación. “La ventana para investigar estas cuestiones juntos está aquí, y las personas fuera de las compañías de IA deberían involucrarse en esta deliberación”, concluye el documento, dejando claro que la pelota está ahora en la cancha colectiva.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
IA
Cloudflare pauta alianza con VoidZero para redefinir el desarrollo web en la era de la IA
AltCoins
Render sufre desplome del 8.8% y desata ventas de pánico en el sector de IA
AltCoins
Virtuals Protocol (VIRTUAL) se desploma un 7% en una jornada de pánico para los agentes IA
AltCoins