Por Canuto  

La inteligencia artificial avanza hacia la mejora recursiva, un escenario donde los sistemas de IA diseñan a sus propios sucesores. Datos internos de Anthropic muestran que Claude ya escribe el 80% del código, ejecuta experimentos y empieza a tomar decisiones de investigación, encendiendo alarmas sobre la pérdida de control humano.
***

  • Claude es responsable de más del 80% del código fusionado en Anthropic y multiplicó por ocho la productividad de los ingenieros.
  • Las tareas autónomas de IA duplican su duración cada cuatro meses; los benchmarks de ingeniería e investigación se saturan en dos años.
  • La mejora recursiva completa podría desplazar a los humanos del desarrollo de IA, exigiendo coordinación global para su verificación.


El camino hacia la IA autoconstructiva

Durante la mayor parte de la historia de la inteligencia artificial, los humanos impulsaron cada paso del ciclo de desarrollo. Pero en Anthropic, los propios sistemas de IA están asumiendo una porción creciente del trabajo, acelerando el proceso. Este fenómeno, conocido como mejora recursiva, todavía no ha llegado a su punto máximo, pero las señales internas indican que podría ocurrir antes de lo que las instituciones están preparadas.

Como muestra un reciente artículo del Instituto Anthropic, la IA ya acelera el desarrollo de sistemas de IA. Por ejemplo, los ingenieros de la compañía hoy envían en promedio ocho veces más código por trimestre que entre 2021 y 2025. Las tendencias técnicas sugieren que los sistemas se volverán mucho más capaces en pocos años, con enormes beneficios en ciencia y salud, pero también con el riesgo de que los humanos pierdan el control.

Para ilustrar esta evolución, Anthropic describe varias etapas. Entre 2021 y 2023, el primer Claude se construyó con trabajo humano tradicional. De 2023 a 2025, los chatbots ayudaron con fragmentos de código. Luego, entre 2025 y 2026, los agentes de codificación comenzaron a escribir archivos completos por sí mismos. Hoy, agentes autónomos ejecutan código y delegan horas de trabajo. Y en un futuro hipotético, los sistemas podrían diseñar y entrenar modelos completamente solos.

Evidencia desde el exterior

La tasa de mejora de los modelos de IA se está acelerando. La duración de las tareas que pueden completar de forma confiable se duplicaba cada siete meses, pero ahora ese ritmo se ha reducido a aproximadamente cuatro meses, según métricas públicas. En marzo de 2024, Claude Opus 3 manejaba tareas humanas de unos cuatro minutos. Un año después, Claude Sonnet 3.7 alcanzaba hora y media, y en abril de 2026, Claude Opus 4.6 resolvía tareas de 12 horas. De mantenerse la tendencia, tareas de días estarían al alcance este año, y en 2027, semanas.

Los benchmarks también lo confirman. SWE-bench, que evalúa ingeniería de software real, pasó de puntuaciones de un solo dígito a saturarse en dos años. CORE-Bench, que mide la capacidad de reproducir investigaciones, subió del 20% de éxito en 2024 a saturarse en quince meses. La organización METR encontró que Claude Mythos Preview podía trabajar al menos 16 horas seguidas, en el límite superior de lo que podían medir sin nuevas tareas.

Datos internos: Claude es el principal programador

Construir un modelo de frontera requiere ingeniería e investigación. En ambas áreas, los datos de Anthropic muestran un patrón consistente: Claude asume cada vez más trabajo. A partir de mayo de 2026, más del 80% del código fusionado en la base de código de la compañía fue escrito por Claude. Antes del lanzamiento de Claude Code en vista de investigación, en febrero de 2025, ese porcentaje era de un solo dígito. El cambio se refleja en la productividad por ingeniero: las líneas de código fusionadas por día se mantuvieron estables entre 2021 y 2024, subieron en 2025 cuando Claude empezó a ejecutar código, y se dispararon en 2026 con trabajo autónomo prolongado.

En el segundo trimestre de 2026, un ingeniero típico fusionaba ocho veces más código que en 2024. Aunque las líneas de código son una medida imperfecta y probablemente exageran el aumento real de productividad, una encuesta interna de marzo de 2026 entre 130 empleados indicó que el encuestado mediano estimaba producir cuatro veces más con Mythos Preview. Incluso si la cifra real es algo menor, el personal logra su trabajo principal varias veces más rápido. La presión llega incluso a la infraestructura compartida. Según datos de GitHub, durante todo 2025 se registraron unos mil millones de commits; a mediados de 2026, la tasa semanal era de 275 millones, proyectando unos 14 mil millones al año. El COO de la empresa declaró que están “presionando increíblemente fuerte” para mantenerse al día.

Además, parte del trabajo simplemente no existiría sin Claude. Un ejemplo: en abril de 2026, el sistema envió más de 800 correcciones que redujeron una clase de errores de API por un factor de mil. Un ingeniero estimó que a un humano le habría tomado cuatro años. Las mejoras también muestran que el código escrito por Claude es “bueno”: la tasa de éxito en tareas complejas y abiertas alcanzó el 76% en mayo de 2026, un salto de 50 puntos porcentuales en seis meses.

Calidad y revisión automatizada

El debate interno sobre la calidad del código indica que, a finales de 2025, el código de Claude era peor que el humano, pero hoy está aproximadamente en paridad y se espera que sea mejor en un año. Anthropic ya utiliza un revisor automatizado de Claude para detectar errores antes de fusionar cambios; un análisis retrospectivo mostró que habría atrapado un tercio de los errores detrás de incidentes pasados en claude.ai. Ingenieros de primer nivel pasaban por alto fallas que Claude ahora captura.

Claude en la investigación

Cada vez que liberan un modelo, el equipo le pide a Claude que optimice el código de entrenamiento para que se ejecute más rápido. En mayo de 2025, Claude Opus 4 alcanzó una aceleración de aproximadamente tres veces; en abril de 2026, Claude Mythos Preview logró 52x. Un investigador humano cualificado necesitaría entre cuatro y ocho horas para llegar a 4x. En esta faceta de ejecución de experimentos, Claude pasó de útil a sobrehumano en menos de un año.

En abril de 2026, Anthropic publicó la primera demostración de un proyecto de investigación abierto ejecutado por agentes de Claude: resolver si un modelo más débil puede supervisar a uno más fuerte. Los agentes recuperaron el 97% de la brecha entre el suelo y el techo de rendimiento, mientras que dos investigadores humanos en una semana solo lograron un 23%. Los humanos aún eligen el problema y la rúbrica, pero dentro de esos límites, los agentes diseñaron cada experimento por sí mismos.

Otra señal: al analizar sesiones reales de Claude Code donde los investigadores tomaron desvíos, el mejor modelo en abril de 2026 sugirió el siguiente paso óptimo el 64% de las veces, frente al 51% en noviembre de 2025. Esto muestra una mejora en el juicio de investigación, aunque todavía lejos del “gusto” humano para elegir qué problemas abordar.

¿Cuál podría ser el futuro del trabajo en Anthropic?

El papel humano se está estrechando. Cuando la calidad del código escrito por IA llegue a la paridad, los humanos dejarán de escribir y pasarán a revisar. Si la revisión no puede seguir el ritmo de generación, se convertirá en el cuello de botella. En investigación, la ventaja comparativa humana reside en el gusto y el juicio: decidir qué experimentos valen la pena. La acción (codificar, ejecutar, producir resultados) cuesta casi nada en tiempo humano, aunque sí en cómputo.

Todavía hay matices: un empleado comentó que antes el trabajo funcionaba con “pequeños favores humanos”, y ahora cada interacción con Claude es más rápida pero deja menos espacio para la colaboración humana. Otro admitió sentir que cuando todo funciona, su aporte parece insignificante, y cuando se rompe, no entiende qué ha estado haciendo.

Posibles futuros y la ley de Amdahl

El artículo del Instituto Anthropic plantea tres escenarios. El primero es que la tendencia se estanque. Las curvas exponenciales podrían ser en realidad curvas en forma de S que se aplanan, quizá porque el juicio de investigación no se escala solo con cómputo y datos. Incluso con las capacidades actuales congeladas, el Proyecto Glasswing de Anthropic encontró más de diez mil vulnerabilidades de alta criticidad en sistemas mundiales, desplazando el cuello de botella hacia el parcheo rápido. Pero los autores no creen que esto sea lo más probable.

El segundo escenario es que las ganancias de eficiencia compuesta continúen. El desarrollo de IA se automatiza sustancialmente, pero los humanos mantienen la dirección. Las organizaciones se volverían mucho más eficientes: una empresa de cien personas podría hacer el trabajo de diez mil o cien mil. Sin embargo, la ley de Amdahl recuerda que acelerar una parte del proceso desplaza el cuello de botella a otro lugar. Anthropic ya ha visto cómo la revisión de código humana y la gestión de la explosión de ideas se convierten en nuevas restricciones.

El tercer escenario, el más delicado, implica que los sistemas alcancen la mejora recursiva completa y construyan sus sucesores. En ese mundo, la velocidad de progreso dependería del cómputo disponible, con humanos dedicados sobre todo a la supervisión y validación. Las consecuencias serían profundas: los modelos podrían descubrir soluciones de alineación por sí mismos o, por el contrario, multiplicar casos de desalineación hasta hacer incomprensible el sistema. La economía, dominada por la inteligencia auto-mejorada, se volvería impredecible, aunque los cuellos de botella físicos y sociales (manufactura, elecciones, relaciones humanas) persistirían.

Qué deberíamos hacer

Si fuera posible ralentizar el desarrollo, piensan que probablemente sería algo bueno. Pero una desaceleración unilateral solo permitiría que actores menos cautelosos tomen la delantera. Sin coordinación global, gobiernos y empresas deben tomar decisiones difíciles bajo presión. El Instituto Anthropic aboga por construir sistemas de verificación que permitan detectar si otros laboratorios realmente se detienen, algo mucho más complejo que con armas nucleares porque las ejecuciones de entrenamiento son fáciles de ocultar.

Organizarán conversaciones en los próximos meses con políticos, investigadores y sociedad civil para abordar estas preguntas. La ventana para investigar juntos está aquí, y las personas fuera de las empresas de IA deben involucrarse en la deliberación.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín