Desarrolladores y expertos en IA aseguran que el modelo insignia de Anthropic ha perdido calidad, mientras la empresa atribuye los cambios a ajustes de producto y no a una degradación real.
***
- Usuarios denuncian caída en desempeño de Claude Opus 4.6.
- Anthropic niega degradación y apunta a cambios en configuración y uso.
- Debate expone tensiones entre percepción de usuarios y ajustes técnicos.
Un número creciente de desarrolladores y usuarios avanzados de inteligencia artificial ha comenzado a expresar dudas sobre el desempeño de Claude Opus 4.6 y Claude Code, los modelos más avanzados de Anthropic. En las últimas semanas, publicaciones en GitHub, X y Reddit han acumulado críticas que coinciden en una misma percepción: el sistema parecería haber perdido capacidad en tareas complejas, mostrar menor consistencia en el razonamiento y consumir más recursos sin ofrecer resultados equivalentes.
Estas preocupaciones han dado lugar a un término que rápidamente se viralizó entre la comunidad técnica: “AI shrinkflation”. La expresión alude a la idea de que los usuarios estarían recibiendo un producto de menor calidad sin cambios en el precio, una comparación que ha encontrado eco especialmente entre quienes dependen del modelo para flujos de trabajo exigentes. Aunque algunos usuarios han sugerido que podría tratarse de limitaciones intencionales relacionadas con la demanda, estas afirmaciones no han sido comprobadas y forman parte del debate abierto.
Evidencia técnica y críticas desde la comunidad
El punto de inflexión en la discusión se produjo con la publicación de un análisis detallado en GitHub por parte de Stella Laurenzo, identificada como directora senior en el área de inteligencia artificial de AMD. Su reporte no se basó en impresiones subjetivas, sino en el examen de miles de sesiones reales de Claude Code, incluyendo 6.852 registros, más de 17.800 bloques de razonamiento y cerca de 234.000 llamadas a herramientas, indica un reporte publicado por VentureBeat.
A partir de este conjunto de datos, Laurenzo argumentó que el modelo había experimentado un cambio significativo desde febrero. Según su análisis, la profundidad del razonamiento disminuyó mientras aumentaban ciertos comportamientos problemáticos, como la finalización prematura de tareas, la tendencia a elegir soluciones simplificadas y la aparición de bucles de razonamiento. También señaló un cambio en el enfoque del modelo, que habría pasado de priorizar investigación a priorizar edición directa.
Este tipo de evidencia resultó especialmente influyente porque aportó datos concretos a una discusión que hasta entonces se apoyaba principalmente en experiencias individuales. Al difundirse en redes sociales, el análisis contribuyó a consolidar la narrativa de que algo había cambiado de manera estructural en el comportamiento del modelo.
La respuesta de Anthropic y el rol de los ajustes técnicos
Desde Anthropic, la respuesta ha sido más matizada. La compañía no ha negado que se hayan producido cambios recientes, pero insiste en que estos corresponden a ajustes en la experiencia del producto y no a una degradación deliberada del modelo. Boris Cherny, líder de Claude Code, reconoció la profundidad del análisis presentado, aunque rechazó la conclusión de que el sistema haya perdido capacidades.
Entre los cambios mencionados se encuentra una modificación en la interfaz que oculta el proceso de razonamiento para reducir la latencia percibida por el usuario. Según la empresa, esta alteración no afecta el razonamiento interno del modelo, sino únicamente la forma en que se presenta. Además, Anthropic ha ajustado parámetros clave como el nivel de esfuerzo predeterminado, buscando un equilibrio entre calidad, velocidad y consumo de recursos.
Estos ajustes, aunque técnicamente justificables, pueden tener efectos perceptibles en la experiencia del usuario. En particular, la reducción del esfuerzo por defecto puede traducirse en respuestas menos elaboradas, lo que para algunos usuarios se interpreta como una pérdida de capacidad.
Benchmarks y controversia sobre métricas
El debate se amplificó con la circulación de resultados de benchmarks que sugerían una caída significativa en el rendimiento del modelo. Uno de los casos más citados fue el de BridgeBench, que reportó una disminución en la precisión de Claude Opus 4.6 y un descenso en su ranking.
Sin embargo, estos resultados no han estado exentos de controversia. Investigadores externos señalaron que las comparaciones realizadas no eran completamente equivalentes, ya que se basaban en conjuntos de pruebas distintos. En algunos casos, las diferencias en resultados podrían explicarse por variaciones metodológicas más que por un deterioro real del modelo.
Esta situación ha generado un entorno donde la evidencia disponible es heterogénea. Mientras algunos datos sugieren cambios relevantes, otros indican que las conclusiones pueden estar sobredimensionadas o mal interpretadas.
Cambios en uso, límites y comportamiento del sistema
El contexto de estas críticas incluye modificaciones confirmadas por la propia Anthropic en la gestión del uso de sus modelos. En marzo, la empresa ajustó los límites de sesiones para ciertos usuarios durante períodos de alta demanda, lo que resultó en un consumo más rápido de los recursos disponibles en horarios específicos.
Paralelamente, surgieron discusiones sobre cambios en el comportamiento del caché de prompts, particularmente en la duración del almacenamiento de contexto. Algunos usuarios sostienen que estos ajustes han incrementado los costos operativos y el consumo de cuotas, especialmente en sesiones prolongadas.
Anthropic ha explicado que estos cambios forman parte de un proceso continuo de optimización, orientado a mejorar la eficiencia general del sistema. No obstante, el hecho de que estas modificaciones coincidan temporalmente con las quejas ha reforzado la percepción de que el producto está cambiando de manera significativa.
Un debate que va más allá del rendimiento técnico
Más allá de las métricas y configuraciones, el núcleo de la controversia parece estar en la percepción de los usuarios. Para desarrolladores que utilizan Claude Code de forma intensiva, pequeños cambios en comportamiento pueden traducirse en una pérdida tangible de confianza, especialmente cuando afectan tareas complejas.
Desde la perspectiva de Anthropic, los ajustes realizados buscan optimizar el equilibrio entre rendimiento, costo y escalabilidad. Sin embargo, para los usuarios, el valor del modelo se mide en resultados concretos, no en parámetros técnicos o decisiones de producto.
Este desajuste explica por qué ambas posiciones pueden coexistir. Un modelo puede no haber sido degradado en términos técnicos, pero aun así ofrecer una experiencia que los usuarios perciben como inferior.
En un contexto competitivo donde actores como OpenAI continúan avanzando en herramientas orientadas a desarrolladores, la capacidad de mantener la confianza de los usuarios se vuelve tan importante como el rendimiento del modelo. Por ahora, el debate permanece abierto, alimentado tanto por experiencias reales como por interpretaciones divergentes de los cambios recientes.
Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.
Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
Empresas
Fluidstack busca USD $1.000 millones con valoración de USD $18.000 millones tras acuerdo con Anthropic
Empresas
Meta pacta con Broadcom chips de IA por 1 GW y extiende alianza hasta 2029
Empresas
Credo Technology Group compra DustPhotonics por USD $1.300 millones para reforzar redes ópticas IA
Empresas