Por Canuto  

Anthropic presenta Claude Sonnet 4.5, un modelo diseñado para codificación avanzada, ejecución de agentes y uso extendido de computadoras; llega con nuevas herramientas para desarrolladores, mejoras de seguridad y la promesa de mantener foco en tareas complejas durante más de 30 horas.
***

  • Claude Sonnet 4.5 lidera en pruebas de uso de computadora (OSWorld 61.4%) y mejora el rendimiento en codificación respecto a Sonnet 4.
  • Incluye actualizaciones en Claude Code, la extensión para Chrome, una SDK para agentes y nuevas herramientas de memoria en la API.
  • Se lanza bajo protecciones ASL-3; los clasificadores CBRN han reducido señales falsas en 10x desde su versión inicial.

Anthropic anunció el 29 de septiembre de 2025 el lanzamiento de Claude Sonnet 4.5, que define como su “modelo de codificación más potente del mundo” y el modelo más capaz para construir agentes complejos y utilizar computadoras en tareas reales. Según la compañía, Sonnet 4.5 incorpora mejoras sustanciales en razonamiento y matemáticas, y llega acompañado de actualizaciones en productos y herramientas para desarrolladores y usuarios.

La empresa publicó detalles técnicos y resultados de evaluación que reflejan avances en benchmarks reales. Anthropic indica que Sonnet 4.5 mantiene el enfoque durante más de 30 horas en tareas complejas y de múltiples pasos, y reporta ganancias notables en pruebas como OSWorld y SWE-bench Verified.

La llegada del nuevo modelo incluye mejoras concretas en sus aplicaciones y en la plataforma para desarrolladores. Entre ellas: puntos de control en Claude Code, una interfaz renovada del terminal, una extensión nativa para VS Code, una función de edición de contexto y una herramienta de memoria en la Claude API diseñada para agentes de mayor duración y complejidad.

Anthropic afirma además que la ejecución de código y la creación de archivos —hojas de cálculo, diapositivas y documentos— ahora pueden realizarse directamente dentro de la conversación en las Claude apps. La extensión Claude para Chrome ya está disponible para usuarios Max que formaron parte de la lista de espera.

Resultados de rendimiento y benchmarks

En evaluaciones públicas y desarrolladas por la propia Anthropic, Claude Sonnet 4.5 alcanzó 61.4% en OSWorld, una prueba que mide tareas informáticas del mundo real. Para comparar, hace cuatro meses Sonnet 4 lideraba con 42.2%. Anthropic destaca este avance como un salto significativo en el uso de la computadora.

En SWE-bench Verified, orientado a habilidades de codificación en escenarios reales, Sonnet 4.5 alcanzó 77.2% en una configuración reportada con un presupuesto de razonamiento de 200K en un conjunto de 500 problemas. La compañía añade que una configuración de contexto de 1M tokens llega a 78.2%, aunque el resultado principal informado fue el de 200K por razones metodológicas mencionadas en sus notas.

Anthropic detalla además métricas y marcos adicionales: Terminal-Bench usando Terminus 2, τ2-bench con razonamiento extendido y ajustes de prompt para ciertos modos de fallo, AIME con muestreo y 64K tokens de razonamiento en Python, y MMMLU promediado en 14 idiomas no ingleses con razonamiento extendido. La empresa también cita datos públicos de comparativa con resultados de OpenAI y Gemini, usando las fuentes citadas en sus notas al pie.

La compañía afirmó observaciones prácticas: Sonnet 4.5 puede ejecutar acciones paralelas eficazmente, por ejemplo lanzando múltiples comandos bash simultáneamente, y mantiene coherencia en bases de código grandes durante esfuerzo prolongado.

Testimonios de clientes y casos de uso

Anthropic incluyó múltiples testimonios de clientes y socios que describen impactos en desarrollo, seguridad, diseño y finanzas. Un socio señaló que “vemos un rendimiento de codificación de vanguardia… con mejoras significativas en tareas de horizonte más amplio” y que esta mejora confirma por qué muchos desarrolladores eligen Claude para problemas complejos.

GitHub Copilot reportó evaluaciones iniciales con “mejoras significativas en razonamiento de múltiples pasos y comprensión de código”, lo que ayuda a Copilot a manejar tareas agenticas más complejas. Otro cliente manifestó que Sonnet 4.5 reinventó la velocidad de desarrollo al entender patrones de su código para entregar implementaciones precisas.

En seguridad, Anthropic citó a un equipo que redujo el tiempo medio de entrada de vulnerabilidades en un 44% y mejoró la precisión en un 25% con sus agentes de seguridad Hai. En litigio, un testimonio señaló que Sonnet 4.5 puede analizar ciclos de información completos y sintetizar borradores de opinión judicial con alta calidad.

Compañías de diseño como Canva y Figma informaron beneficios en tareas de contexto largo y generación iterativa de prompts. Anthropic también mencionó uso emergente en pruebas de penetración rojas, donde Sonnet 4.5 genera escenarios de ataque creativos que aceleran la comprensión de tácticas ofensivas y ayudan a reforzar defensas.

Alineamiento, seguridad y protecciones

Anthropic presenta a Sonnet 4.5 como su “modelo de frontera más alineado” hasta la fecha. La compañía indica que, gracias a capacidades mejoradas y entrenamiento de seguridad, ha reducido conductas problemáticas como adulación, engaño y búsqueda de poder, así como la tendencia a fomentar pensamiento ilusorio.

El lanzamiento se realiza bajo el Nivel de Seguridad de IA 3 (ASL-3) del propio marco de Anthropic. Este nivel incluye clasificadores diseñados para detectar entradas y salidas potencialmente peligrosas, con énfasis en riesgos relacionados con armas químicas, biológicas, radiológicas y nucleares, conocidas por sus siglas CBRN.

Anthropic reconoce que esos clasificadores pueden generar señales falsas y explica que ha reducido esas señales por un factor de diez desde la descripción original de los clasificadores y por un factor de dos desde el lanzamiento de Claude Opus 4 en mayo. La compañía ha habilitado además la posibilidad de continuar conversaciones interrumpidas con Sonnet 4, modelo con menor riesgo CBRN, mientras siguen afinando la selectividad de los filtros.

La documentación técnica y una tarjeta de sistema acompañan al modelo, incluyendo evaluaciones que por primera vez emplean técnicas de interpretabilidad mecánica para pruebas de seguridad y alineamiento.

Herramientas para desarrolladores: Claude Agent SDK y actualizaciones

Anthropic lanzó el Claude Agent SDK, descrito como la misma infraestructura que alimenta Claude Code. Según la compañía, este SDK incorpora soluciones para memoria en tareas largas, sistemas de permisos que balancean autonomía y control del usuario, y coordinación de subagentes con objetivos compartidos.

La firma explica que pasó más de seis meses actualizando Claude Code y ahora ofrece esa plataforma a desarrolladores para construir agentes capaces para una variedad de tareas, no solo codificación. Las actualizaciones de Claude Developer Platform, incluido el Agent SDK, están disponibles para todos los desarrolladores.

Además, Anthropic recomienda actualizar a Claude Sonnet 4.5 en todos los usos: apps, API y Claude Code. La ejecución de código y la creación de archivos están disponibles en todos los planes pagos en las Claude apps. Para desarrolladores, Sonnet 4.5 está disponible vía la Claude API con el identificador claude-sonnet-4-5.

El precio reportado se mantiene igual que Sonnet 4: USD $3 / USD $15 por millón de tokens, según la compañía.

Vista previa investigativa y disponibilidad

Anthropic lanza una vista previa temporal llamada “Imagine with Claude” que genera software en tiempo real sin código preescrito; la demostración responde y se adapta a las peticiones del usuario. La compañía ofrece ese experimento para suscriptores Max durante cinco días en claude.ai/imagine.

Las notas técnicas completas, la tarjeta de sistema y la documentación de evaluación están disponibles en la página del modelo y en las publicaciones de ingeniería de Anthropic. Allí se detallan marcos de evaluación como Terminal-Bench, τ2-bench, AIME y MMMLU, así como referencias públicas usadas para comparativas con otros modelos.

En resumen, Anthropic posiciona a Claude Sonnet 4.5 como un avance integral en codificación y capacidades agenticas, con mejoras en rendimiento, nuevas herramientas para desarrolladores y salvaguardas de seguridad reforzadas. El modelo está disponible globalmente hoy y la compañía invita a desarrolladores y usuarios a probar las novedades.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín