Por Canuto  

Anthropic presentó claude sonnet 4.6 como su modelo sonnet más capaz hasta ahora, con mejoras en codificación, agentes, uso de computadoras y razonamiento en contextos largos, además de una ventana de contexto de 1 millón de tokens en beta. La compañía también mantuvo los precios de sonnet 4.5, lo convirtió en el modelo predeterminado para planes free y pro, y destacó evaluaciones de seguridad que lo sitúan como “tan seguro o más seguro” que sus modelos recientes.
***

  • Anthropic afirma que claude sonnet 4.6 es una actualización integral en codificación, planificación agéntica, trabajo de conocimiento, diseño y razonamiento con contexto largo.
  • El modelo llega con contexto de 1 millón de tokens en beta y se vuelve predeterminado en claude.ai y Claude Cowork para planes free y pro, manteniendo precios desde USD $3 y USD $15 por millón de tokens.
  • Mejoras en uso de computadoras y seguridad incluyen avances medibles en OSWorld y mayor resistencia frente a ataques de inyección de comandos, según evaluaciones internas.

Anthropic anunció el lanzamiento de claude sonnet 4.6, al que describió como el modelo sonnet “más capaz hasta ahora”. Según la publicación oficial de la empresa, se trata de una actualización amplia orientada a tareas de codificación, uso de computadoras, razonamiento en contextos largos, planificación de agentes, trabajo de conocimiento y diseño. La compañía también indicó que sonnet 4.6 incorpora una ventana de contexto de 1 millón de tokens en beta, un punto que busca habilitar análisis extensos y flujos de trabajo de mayor escala.

En términos de producto, Anthropic informó que para los usuarios en planes free y pro, sonnet 4.6 pasa a ser el modelo predeterminado dentro de claude.ai y Claude Cowork. Además, la empresa recalcó que la estructura de precios se mantiene igual que en sonnet 4.5, con valores que comienzan desde USD $3 y USD $15 por millón de tokens. Con esto, el lanzamiento apunta a elevar capacidades sin elevar costos de entrada para muchos equipos.

El anuncio se da en un contexto donde los modelos de lenguaje compiten por dos ejes clave: desempeño y costo. En el ecosistema de IA aplicada a desarrollo de software, análisis de documentos y automatización, pequeños saltos de consistencia y seguimiento de instrucciones pueden marcar diferencias operativas. Por eso, Anthropic enmarcó el avance de sonnet 4.6 como una forma de llevar rendimiento que antes asociaba a su línea opus hacia un segmento más accesible.

Mejoras de codificación y preferencia de desarrolladores

Anthropic sostuvo que sonnet 4.6 lleva “habilidades de codificación mucho mejoradas” a más usuarios, con avances en consistencia y seguimiento de instrucciones. En su relato, la empresa dijo que desarrolladores con acceso temprano prefirieron sonnet 4.6 sobre sonnet 4.5 por un margen amplio. Incluso, afirmó que a menudo lo prefirieron sobre su modelo “más inteligente de noviembre de 2025”, claude opus 4.5.

La publicación también planteó que tareas cuyo rendimiento “habría requerido” un modelo clase opus ahora serían posibles con sonnet 4.6. La compañía enmarcó ese cambio como relevante para escenarios reales y con valor económico, aunque sin detallar casos específicos en el anuncio. En paralelo, Anthropic señaló que el modelo exhibe una mejora importante en habilidades de uso de computadoras frente a modelos sonnet anteriores.

Dentro de Claude Code, Anthropic reportó resultados de pruebas tempranas en las que usuarios prefirieron sonnet 4.6 sobre sonnet 4.5 aproximadamente el 70% del tiempo. Según la empresa, los participantes indicaron que el modelo leía mejor el contexto antes de modificar el código. También señalaron que consolidaba lógica compartida en lugar de duplicarla, lo que redujo frustraciones durante sesiones largas.

Anthropic añadió otra comparación que llamó la atención: usuarios prefirieron sonnet 4.6 sobre opus 4.5 el 59% del tiempo, según la empresa. La clasificación, de acuerdo con el anuncio, lo describió como menos propenso a la sobreingeniería y a la “pereza”, además de más sólido en seguimiento de instrucciones. En esa misma línea, Anthropic mencionó menos afirmaciones falsas de éxito, menos alucinaciones y mayor consistencia en tareas de varios pasos.

Ventana de contexto de 1 millón de tokens y razonamiento de largo alcance

Uno de los puntos centrales del anuncio es la ventana de contexto de 1 millón de tokens en beta. Anthropic afirmó que este tamaño permitiría incluir bases de código enteras, contratos extensos o docenas de documentos de investigación en una sola solicitud. Sin embargo, la empresa subrayó que el valor no es solo el tamaño, sino la capacidad de “razonar de manera efectiva” sobre todo el contexto.

La compañía relacionó esa capacidad con mejores resultados en planificación a largo plazo. Como ejemplo, citó la evaluación Vending-Bench Arena, descrita como una prueba de qué tan bien un modelo puede manejar un negocio simulado en el tiempo, con componente competitivo. Según Anthropic, sonnet 4.6 desarrolló una estrategia particular: invirtió fuertemente en capacidad durante los primeros diez meses simulados y luego cambió el enfoque hacia rentabilidad en la etapa final.

Anthropic sostuvo que la sincronización de ese giro le permitió terminar por delante de la competencia en dicha evaluación. Aunque el anuncio no publicó tablas completas de resultados, la empresa presentó el caso como evidencia de planificación con horizonte largo. Para lectores nuevos, este tipo de pruebas intenta medir no solo respuestas puntuales, sino consistencia de decisiones a lo largo de múltiples rondas, un requisito común en agentes que ejecutan tareas prolongadas.

Más allá de benchmarks, Anthropic indicó que clientes tempranos reportaron mejoras amplias, con énfasis en código frontend y análisis financiero. En particular, dijo que los resultados visuales se percibieron como más pulidos, con mejores maquetaciones, animaciones y “sentido del diseño”. También afirmó que los clientes necesitaron menos rondas de iteración para alcanzar resultados a nivel de producción.

Uso de computadoras: del software legado al benchmark OSWorld

Anthropic dedicó una sección a “uso de computadoras”, una línea de capacidades que busca operar software como lo haría una persona, especialmente cuando no existen APIs o integraciones sencillas. La empresa planteó que muchas organizaciones dependen de sistemas especializados construidos antes de la era de interfaces modernas, lo que dificulta automatizar. En ese escenario, una IA capaz de interactuar con interfaces gráficas podría reducir la necesidad de construir conectores a medida.

En el anuncio, Anthropic recordó que en octubre de 2024 fue la primera en presentar un modelo de uso de computadora de propósito general. En ese momento, según dijo, lo describió como “experimental”, a veces engorroso y propenso a errores, aunque con expectativas de mejoras rápidas. Para medir progreso, mencionó OSWorld, al que definió como un estándar de referencia para uso de computadoras por IA.

Anthropic explicó que OSWorld incluye cientos de tareas en software real, como Chrome, LibreOffice y VS Code, corriendo en un ordenador simulado. También destacó que no hay APIs especiales ni conectores preparados: el modelo ve el ordenador e interactúa moviendo un ratón virtual y escribiendo en un teclado virtual. En el balance de “dieciséis meses”, la compañía dijo que sus modelos sonnet han tenido avances constantes en OSWorld.

La empresa agregó observaciones de usuarios tempranos de sonnet 4.6 que, según Anthropic, ya ven capacidad a nivel humano en tareas como navegar hojas de cálculo complejas o completar formularios web con múltiples pasos, conectando información entre pestañas. Aun así, la compañía admitió que el uso de computadoras sigue por detrás de los humanos más habilidosos. Su argumento es que el ritmo de progreso sugiere utilidad creciente para tareas laborales y que modelos más capaces están “al alcance”.

Riesgos de seguridad y defensa ante inyección de comandos

Anthropic abordó riesgos específicos del uso de computadoras, en especial la posibilidad de que actores maliciosos intenten secuestrar al modelo ocultando instrucciones en sitios web, lo que describió como ataques de inyección de comandos. En respuesta, la empresa afirmó que ha trabajado en mejorar resistencia a este tipo de amenazas. Según sus evaluaciones, sonnet 4.6 representa una mejora significativa frente a sonnet 4.5 y ofrece rendimiento similar a opus 4.6.

En un plano más general, Anthropic dijo que realizó evaluaciones de seguridad extensivas para sonnet 4.6 y que los resultados, en conjunto, muestran que el modelo es “tan seguro o más seguro” que otros modelos recientes de claude. La compañía citó a sus investigadores de seguridad, quienes concluyeron que sonnet 4.6 tiene un carácter “generalmente cálido, honesto, pro-social y a veces divertido”, con comportamientos de seguridad “muy fuertes”. También indicaron que no observaron señales de preocupaciones mayores en torno a formas de desalineación de alto riesgo.

Para equipos que evalúan modelos por cumplimiento y riesgo, estas declaraciones suelen funcionar como un marco inicial, no como garantía final. La adopción en entornos empresariales depende de pruebas internas, controles y políticas de uso. Aun así, el énfasis de Anthropic muestra que la compañía intenta posicionar mejoras técnicas sin descuidar el componente de mitigación de abuso, un punto sensible en herramientas que interactúan con sistemas y flujos reales.

La empresa también señaló que puede encontrarse más información sobre mitigación de inyecciones de comandos y otras preocupaciones en sus documentos de API. Además, apuntó a su tarjeta de sistema como espacio para una discusión más completa de capacidades y comportamientos relacionados con seguridad. El anuncio, por tanto, combina promesas de rendimiento con invitaciones a documentación técnica para implementación responsable.

Benchmarks, documentos empresariales y casos mencionados por clientes

Anthropic afirmó que sonnet 4.6 mejoró “en puntos de referencia en general” y que se acerca a inteligencia a nivel opus a un precio más práctico. En OfficeQA, descrito como una métrica de lectura de documentos empresariales con gráficos, PDFs y tablas, la empresa señaló que sonnet 4.6 iguala el rendimiento de opus 4.6. Según la compañía, eso sería relevante para cargas de trabajo de comprensión de documentos.

En su narrativa de rendimiento-costo, Anthropic sostuvo que la relación es “extraordinaria” y que los modelos claude han evolucionado rápido en meses recientes. También dijo que sonnet 4.6 supera evaluaciones de orquestación, maneja cargas agénticas más complejas y mejora al aumentar la configuración del esfuerzo. En cuanto a operación a escala, la empresa remarcó que el modelo sobresale en correcciones de código complejas cuando es esencial buscar dentro de bases de código grandes.

El anuncio incluyó menciones de clientes y evaluaciones externas. Por ejemplo, Anthropic indicó que Box evaluó desempeño en razonamiento profundo y tareas agénticas complejas sobre documentos empresariales reales, y que observó mejoras significativas, superando a sonnet 4.5 en Q&A de razonamiento intensivo por 15 puntos porcentuales. También afirmó que sonnet 4.6 alcanzó 94% en su benchmark de seguros, al que describió como el mejor rendimiento que han probado para uso de computadoras.

Asimismo, Anthropic dijo que Rakuten AI observó que sonnet 4.6 produjo el mejor código iOS que han probado, con mejor cumplimiento de especificaciones y mejor arquitectura. Según esa descripción, el modelo incluso incorporó herramientas modernas que no se le solicitaron, en un solo intento. La empresa también recogió impresiones de que sonnet 4.6 es fuerte en tareas ramificadas y de múltiples pasos, como enrutamiento de contratos, selección condicional de plantillas y coordinación CRM.

Actualizaciones de producto: plataforma de desarrollo, herramientas y conectores

En la Claude Developer Platform, Anthropic informó que sonnet 4.6 admite tanto “pensamiento adaptativo” como “pensamiento extendido”. También mencionó el “compendio de contexto” en beta, que resume automáticamente el contexto antiguo cuando las conversaciones se acercan a límites. La empresa planteó que esto aumenta la longitud efectiva del contexto, un elemento útil para sesiones largas y proyectos que acumulan antecedentes.

En su API, Anthropic afirmó que las herramientas de búsqueda web y “obtener” ahora escriben y ejecutan automáticamente código para filtrar y procesar resultados, manteniendo solo contenido relevante en contexto. La compañía sostuvo que esto mejora la calidad de respuestas y la eficiencia de tokens. Además, indicó que ejecución de código, memoria, llamada programática de herramientas, búsqueda de herramientas y ejemplos de uso de herramientas ya están disponibles de manera general.

Para migraciones desde sonnet 4.5, Anthropic recomendó explorar el espectro entre velocidad y rendimiento confiable, según lo que se esté construyendo. La empresa añadió que opus 4.6 sigue siendo la opción más fuerte para tareas que demandan razonamiento más profundo, como refactorización de bases de código, coordinación de múltiples agentes y problemas donde hacerlo “justamente bien” es primordial.

Finalmente, Anthropic destacó una expansión en “claude en excel”. Según el anuncio, el complemento ahora admite conectores MCP, lo que permitiría a claude trabajar con otras herramientas usadas en el día a día, como S&P Global, LSEG, Daloopa, PitchBook, Moody’s y FactSet. La empresa señaló que las conexiones MCP configuradas en claude.ai funcionarían en Excel automáticamente, y que esto está disponible en planes pro, max, team y enterprise.

Disponibilidad y nombre de modelo para API

Anthropic cerró el anuncio afirmando que claude sonnet 4.6 está disponible en todos los planes claude, en Claude Cowork, Claude Code, su API y en las principales plataformas en la nube. También indicó que actualizó su nivel gratuito para que sonnet 4.6 sea el modelo predeterminado, e incluyó creación de archivos, conectores, habilidades y compendio. Para desarrolladores, la empresa dijo que puede usarse rápidamente en la Claude API mediante el identificador de modelo “claude-sonnet-4-6”.

El mensaje general del lanzamiento se resume en una promesa: capacidades más cercanas a la frontera, con costos y accesibilidad de la línea sonnet. Para el mercado, esto presiona el estándar de lo que puede considerarse “modelo de gama media”, en especial si la ventana de 1 millón de tokens y el uso de computadoras continúan madurando. Por ahora, Anthropic puso el foco en mejoras medibles, preferencia de usuarios y una narrativa de seguridad que busca facilitar adopción empresarial.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín