Usuarios cuestionan desempeño de Claude Opus 4.6 y desatan debate sobre “AI shrinkflation”

𝕏

Miércoles, 15 de Abril, 2026

Por Canuto

Desarrolladores y expertos en IA aseguran que el modelo insignia de Anthropic ha perdido calidad, mientras la empresa atribuye los cambios a ajustes de producto y no a una degradación real.

***

Usuarios denuncian caída en desempeño de Claude Opus 4.6.
Anthropic niega degradación y apunta a cambios en configuración y uso.
Debate expone tensiones entre percepción de usuarios y ajustes técnicos.

🚨 Usuarios cuestionan el desempeño de Claude Opus 4.6 🚨

Desarrolladores de IA denuncian pérdida de calidad en el modelo de Anthropic.

Aumentan críticas sobre inconsistencias en razonamiento y exceso de recursos.

El término “AI shrinkflation” se viraliza, sugiriendo que los… pic.twitter.com/JnTPTATGuF

— Diario฿itcoin (@DiarioBitcoin) April 15, 2026

Un número creciente de desarrolladores y usuarios avanzados de inteligencia artificial ha comenzado a expresar dudas sobre el desempeño de Claude Opus 4.6 y Claude Code, los modelos más avanzados de Anthropic. En las últimas semanas, publicaciones en GitHub, X y Reddit han acumulado críticas que coinciden en una misma percepción: el sistema parecería haber perdido capacidad en tareas complejas, mostrar menor consistencia en el razonamiento y consumir más recursos sin ofrecer resultados equivalentes.

Estas preocupaciones han dado lugar a un término que rápidamente se viralizó entre la comunidad técnica: “AI shrinkflation”. La expresión alude a la idea de que los usuarios estarían recibiendo un producto de menor calidad sin cambios en el precio, una comparación que ha encontrado eco especialmente entre quienes dependen del modelo para flujos de trabajo exigentes. Aunque algunos usuarios han sugerido que podría tratarse de limitaciones intencionales relacionadas con la demanda, estas afirmaciones no han sido comprobadas y forman parte del debate abierto.

Evidencia técnica y críticas desde la comunidad

El punto de inflexión en la discusión se produjo con la publicación de un análisis detallado en GitHub por parte de Stella Laurenzo, identificada como directora senior en el área de inteligencia artificial de AMD. Su reporte no se basó en impresiones subjetivas, sino en el examen de miles de sesiones reales de Claude Code, incluyendo 6.852 registros, más de 17.800 bloques de razonamiento y cerca de 234.000 llamadas a herramientas, indica un reporte publicado por VentureBeat.

A partir de este conjunto de datos, Laurenzo argumentó que el modelo había experimentado un cambio significativo desde febrero. Según su análisis, la profundidad del razonamiento disminuyó mientras aumentaban ciertos comportamientos problemáticos, como la finalización prematura de tareas, la tendencia a elegir soluciones simplificadas y la aparición de bucles de razonamiento. También señaló un cambio en el enfoque del modelo, que habría pasado de priorizar investigación a priorizar edición directa.

Este tipo de evidencia resultó especialmente influyente porque aportó datos concretos a una discusión que hasta entonces se apoyaba principalmente en experiencias individuales. Al difundirse en redes sociales, el análisis contribuyó a consolidar la narrativa de que algo había cambiado de manera estructural en el comportamiento del modelo.

La respuesta de Anthropic y el rol de los ajustes técnicos

Desde Anthropic, la respuesta ha sido más matizada. La compañía no ha negado que se hayan producido cambios recientes, pero insiste en que estos corresponden a ajustes en la experiencia del producto y no a una degradación deliberada del modelo. Boris Cherny, líder de Claude Code, reconoció la profundidad del análisis presentado, aunque rechazó la conclusión de que el sistema haya perdido capacidades.

Entre los cambios mencionados se encuentra una modificación en la interfaz que oculta el proceso de razonamiento para reducir la latencia percibida por el usuario. Según la empresa, esta alteración no afecta el razonamiento interno del modelo, sino únicamente la forma en que se presenta. Además, Anthropic ha ajustado parámetros clave como el nivel de esfuerzo predeterminado, buscando un equilibrio entre calidad, velocidad y consumo de recursos.

Estos ajustes, aunque técnicamente justificables, pueden tener efectos perceptibles en la experiencia del usuario. En particular, la reducción del esfuerzo por defecto puede traducirse en respuestas menos elaboradas, lo que para algunos usuarios se interpreta como una pérdida de capacidad.

Benchmarks y controversia sobre métricas

El debate se amplificó con la circulación de resultados de benchmarks que sugerían una caída significativa en el rendimiento del modelo. Uno de los casos más citados fue el de BridgeBench, que reportó una disminución en la precisión de Claude Opus 4.6 y un descenso en su ranking.

Sin embargo, estos resultados no han estado exentos de controversia. Investigadores externos señalaron que las comparaciones realizadas no eran completamente equivalentes, ya que se basaban en conjuntos de pruebas distintos. En algunos casos, las diferencias en resultados podrían explicarse por variaciones metodológicas más que por un deterioro real del modelo.

Esta situación ha generado un entorno donde la evidencia disponible es heterogénea. Mientras algunos datos sugieren cambios relevantes, otros indican que las conclusiones pueden estar sobredimensionadas o mal interpretadas.

Cambios en uso, límites y comportamiento del sistema

El contexto de estas críticas incluye modificaciones confirmadas por la propia Anthropic en la gestión del uso de sus modelos. En marzo, la empresa ajustó los límites de sesiones para ciertos usuarios durante períodos de alta demanda, lo que resultó en un consumo más rápido de los recursos disponibles en horarios específicos.

Paralelamente, surgieron discusiones sobre cambios en el comportamiento del caché de prompts, particularmente en la duración del almacenamiento de contexto. Algunos usuarios sostienen que estos ajustes han incrementado los costos operativos y el consumo de cuotas, especialmente en sesiones prolongadas.

Anthropic ha explicado que estos cambios forman parte de un proceso continuo de optimización, orientado a mejorar la eficiencia general del sistema. No obstante, el hecho de que estas modificaciones coincidan temporalmente con las quejas ha reforzado la percepción de que el producto está cambiando de manera significativa.

Un debate que va más allá del rendimiento técnico

Más allá de las métricas y configuraciones, el núcleo de la controversia parece estar en la percepción de los usuarios. Para desarrolladores que utilizan Claude Code de forma intensiva, pequeños cambios en comportamiento pueden traducirse en una pérdida tangible de confianza, especialmente cuando afectan tareas complejas.

Desde la perspectiva de Anthropic, los ajustes realizados buscan optimizar el equilibrio entre rendimiento, costo y escalabilidad. Sin embargo, para los usuarios, el valor del modelo se mide en resultados concretos, no en parámetros técnicos o decisiones de producto.

Este desajuste explica por qué ambas posiciones pueden coexistir. Un modelo puede no haber sido degradado en términos técnicos, pero aun así ofrecer una experiencia que los usuarios perciben como inferior.

En un contexto competitivo donde actores como OpenAI continúan avanzando en herramientas orientadas a desarrolladores, la capacidad de mantener la confianza de los usuarios se vuelve tan importante como el rendimiento del modelo. Por ahora, el debate permanece abierto, alimentado tanto por experiencias reales como por interpretaciones divergentes de los cambios recientes.

Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín

𝕏

USDT	Tether USDt	0,0%	$66,82 mmd
BTC	Bitcoin	1,43%	$29,41 mmd
ETH	Ethereum	1,72%	$12,27 mmd
USDC	USDC	0,0%	$8,46 mmd
SOL	Solana	1,39%	$3,0 mmd
XLM	Stellar	23,51%	$2,45 mmd
XRP	XRP	2,77%	$2,27 mmd
BNB	BNB	6,53%	$1,86 mmd
USD1	World Liberty Financial USD	0,01%	$1,74 mmd
HYPE	Hyperliquid	6,89%	$1,38 mmd

H	Humanity	31,11%	$0,357 679
XLM	Stellar	23,51%	$0,253 804
FET	Artificial Superintelligence Alliance	18,29%	$0,275 927
ALGO	Algorand	15,74%	$0,130 83
HBAR	Hedera	11,99%	$0,100 175
NIGHT	Midnight	9,98%	$0,039 074
INJ	Injective	9,65%	$6,82
WLD	Worldcoin	7,7%	$0,321 196
XTZ	Tezos	6,97%	$0,322 956
HYPE	Hyperliquid	6,89%	$67,64

M	MemeCore	-5,72%	$2,86
ONDO	Ondo	-4,67%	$0,343 974
STABLE	Stable	-3,98%	$0,037 507
ZEC	Zcash	-2,86%	$519,9
NEAR	NEAR Protocol	-2,84%	$2,38
DASH	Dash	-1,28%	$39,05
CC	Canton	-1,13%	$0,154 613
KITE	Kite	-1,06%	$0,195 687
SKY	Sky	-1,01%	$0,064 622
TRX	TRON	-0,97%	$0,343 188

Usuarios cuestionan desempeño de Claude Opus 4.6 y desatan debate sobre “AI shrinkflation”

Evidencia técnica y críticas desde la comunidad

La respuesta de Anthropic y el rol de los ajustes técnicos

Benchmarks y controversia sobre métricas

Cambios en uso, límites y comportamiento del sistema

Un debate que va más allá del rendimiento técnico

Suscríbete a nuestro boletín

Artículos Relacionados

Startup vinculada a Trump prueba robots humanoides en la guerra en Ucrania

Meta busca ingresos por IA, pero su dependencia de anuncios inquieta a Wall Street

Ripple usa IA para cazar vulnerabilidades en XRP Ledger y promete más mejoras

Contrato multimillonario de Dell con el Pentágono suscita dudas debido a lazos con Trump