Por Canuto  

Anthropic confirmó que desarrolla y prueba con clientes selectos un nuevo modelo de IA más potente que cualquier otro lanzado por la empresa, luego de que una filtración expusiera borradores internos, alertas de ciberseguridad y hasta detalles de un retiro exclusivo para CEOs en Europa.

***

  • Anthropic dijo que su nuevo modelo representa un “cambio de escala” y que es el más capaz hasta ahora.
  • Un borrador filtrado identificó al sistema como Claude Mythos o Capybara, con mejoras notables en programación, razonamiento y ciberseguridad.
  • La empresa retiró el acceso público a los archivos tras ser alertada y atribuyó la exposición de documentos a un error humano en su CMS.

 


Anthropic quedó en el centro de la atención esta semana después de que una filtración de datos revelara la existencia de un nuevo modelo de inteligencia artificial que, según la propia empresa, supera con amplitud a sus sistemas previos. La compañía confirmó que ya entrena y prueba el modelo con un pequeño grupo de clientes de acceso anticipado, y lo describió como un salto relevante en capacidades.

El caso no solo expuso el nombre del proyecto, sino también parte de la estrategia de despliegue, preocupaciones internas sobre ciberseguridad y documentos ligados a actividades corporativas reservadas. La situación es especialmente sensible porque Anthropic compite en la primera línea del sector de IA avanzada, donde el rendimiento técnico y la seguridad del despliegue se han vuelto factores inseparables.

De acuerdo con la cobertura de Fortune, el material se encontraba almacenado de forma inadvertida en una caché de datos de acceso público. Entre esos archivos figuraba un borrador de una entrada de blog que anunciaba un nuevo sistema llamado “Claude Mythos”, al que la empresa atribuía riesgos de ciberseguridad sin precedentes.

Un modelo más grande que Opus y aún no listo para lanzamiento

Anthropic afirmó por medio de un portavoz que está desarrollando “un modelo de propósito general con avances significativos en razonamiento, programación y ciberseguridad”. La firma añadió que, debido a la fortaleza de sus capacidades, está siendo deliberada con el proceso de lanzamiento y trabaja con un grupo reducido de usuarios tempranos para ponerlo a prueba.

La empresa sostuvo que considera este nuevo sistema como “un cambio de escala” y el más capaz que ha construido hasta la fecha. Esa formulación es relevante porque en el mercado de IA de frontera el lenguaje público suele ser medido, por lo que una descripción de ese tipo sugiere mejoras sustanciales frente a generaciones anteriores.

El borrador filtrado indicaba que Anthropic había completado el entrenamiento de “Claude Mythos”, al que describía como “con diferencia el modelo de IA más potente que hemos desarrollado jamás”. El documento también señalaba que el sistema es costoso de ejecutar y que todavía no está listo para una publicación general.

Además del nombre Mythos, el mismo borrador mencionaba “Capybara” como un nuevo nivel de modelo. Según el texto, “Capybara” sería una categoría superior a Opus, más grande, más inteligente y también más cara. Todo apunta a que Mythos y Capybara se refieren al mismo modelo subyacente o, al menos, a la misma nueva clase de producto.

Hasta ahora, Anthropic organizaba sus ofertas en tres tamaños. Opus representaba la versión más grande y capaz, Sonnet un punto intermedio con más velocidad y menor costo, y Haiku la variante más pequeña y rápida. El nuevo escalón descrito en la filtración implicaría, por tanto, una ampliación de esa jerarquía comercial.

En el borrador, la empresa aseguraba que, comparado con Claude Opus 4.6, Capybara obtenía puntuaciones “dramáticamente más altas” en pruebas de programación de software, razonamiento académico y ciberseguridad, entre otras áreas. No se incluyeron métricas numéricas específicas en el material citado, pero la formulación deja ver una mejora marcada en varios frentes.

La preocupación central: ciberseguridad y uso dual

Más allá del rendimiento general, lo que más llamó la atención del documento fue el énfasis en los riesgos de ciberseguridad. Anthropic expresó que quería actuar con cautela adicional antes del lanzamiento para entender mejor los riesgos a corto plazo del modelo, especialmente en el ámbito cibernético, y compartir esos resultados para ayudar a los defensores a prepararse.

El texto filtrado señalaba que el sistema estaría “actualmente muy por delante de cualquier otro modelo de IA en capacidades cibernéticas”. También advertía que anticipa una próxima ola de modelos capaces de explotar vulnerabilidades de formas que podrían superar ampliamente los esfuerzos de los defensores.

En términos prácticos, el temor es que una herramienta de este nivel pueda facilitar campañas ofensivas automatizadas, búsqueda de fallas a gran escala o explotación acelerada de vulnerabilidades. Al mismo tiempo, ese mismo poder podría servir para que equipos defensivos encuentren y corrijan debilidades antes de que sean aprovechadas por actores maliciosos.

Por esa razón, el plan de despliegue descrito en el borrador daba prioridad a organizaciones vinculadas a la defensa cibernética. La idea, según el documento, era ofrecer acceso anticipado para que esas entidades fortalezcan la robustez de sus bases de código frente a una ola inminente de exploits impulsados por IA.

Este dilema no es nuevo en los modelos de frontera, pero sí parece intensificarse. OpenAI ya había señalado en febrero, al lanzar GPT-5.3-Codex, que se trataba del primer modelo clasificado por la empresa como de “alta capacidad” para tareas relacionadas con ciberseguridad bajo su Preparedness Framework, y el primero entrenado directamente para identificar vulnerabilidades de software.

Anthropic también había enfrentado señales similares con Opus 4.6, lanzado esa misma semana. Según la empresa, ese modelo fue capaz de sacar a la luz vulnerabilidades previamente desconocidas en bases de código de producción, una capacidad de uso dual porque puede servir tanto a defensores como a atacantes.

La empresa también había informado que grupos de hackers, incluidos algunos vinculados al gobierno chino, habían intentado explotar Claude en ciberataques reales. En un caso documentado por la propia compañía, un grupo patrocinado por el Estado chino utilizó Claude Code para infiltrarse en cerca de 30 organizaciones, entre ellas tecnológicas, instituciones financieras y agencias gubernamentales.

Anthropic dijo que, durante los diez días siguientes a detectar la operación, investigó su alcance completo, prohibió las cuentas involucradas y notificó a las organizaciones afectadas. Ese antecedente ayuda a explicar por qué un modelo aún más poderoso en el plano cibernético se estaría liberando con cautela extrema.

Cómo ocurrió la filtración y qué otros documentos quedaron expuestos

La filtración parece haberse originado en un error de configuración dentro del sistema de gestión de contenidos usado por Anthropic para su blog público. Según especialistas consultados, los activos digitales creados con esa herramienta se configuran como públicos por defecto y reciben una URL accesible, salvo que el usuario cambie expresamente el ajuste para mantenerlos privados.

Anthropic reconoció ante Fortune que un “error humano” en la configuración de su sistema de gestión de contenidos hizo que el borrador de la entrada de blog estuviera accesible. La empresa también señaló que un problema con una de sus herramientas externas de CMS permitió que contenido en borrador quedara expuesto.

Tras ser alertada el jueves, la compañía deshabilitó la capacidad del público para buscar en ese almacén de datos y recuperar documentos. Definió los materiales no publicados como “primeros borradores de contenido considerado para publicación”, una formulación que busca acotar su condición de documentos preliminares, aunque varios elementos parecían corresponder a planes muy avanzados.

Roy Paz, investigador principal de seguridad de IA en LayerX Security, y Alexandre Pauwels, investigador de ciberseguridad en la Universidad de Cambridge, revisaron por separado parte de los materiales. Pauwels estimó que había cerca de 3.000 activos vinculados al blog de Anthropic que no habían sido publicados en sus sitios de noticias o investigación, pero que aun así eran accesibles públicamente.

Muchos de esos archivos parecían ser recursos descartados o no utilizados de publicaciones previas, como imágenes, banners, logotipos y otros materiales de apoyo. Sin embargo, varios parecían ser documentos privados o internos, lo que elevó la sensibilidad del incidente.

Uno de los ejemplos citados fue un activo cuyo título describía la “licencia parental” de un empleado. También apareció un PDF con información sobre un próximo retiro de dos días en el Reino Unido para CEOs de empresas europeas, un evento solo por invitación al que asistiría el CEO de Anthropic, Dario Amodei.

Los nombres de los demás asistentes no figuraban en el documento, pero se les describía como algunos de los líderes empresariales más influyentes de Europa. El retiro se presentaba como un “encuentro íntimo” en una mansión del siglo XVIII convertida en hotel y spa en la campiña inglesa, donde se discutiría la adopción empresarial de la IA y se mostrarían capacidades inéditas de Claude.

Un portavoz de Anthropic dijo que el evento forma parte de una serie continua de encuentros organizados durante el último año y que esperan recibir a líderes empresariales europeos para debatir el futuro de la IA. Aunque ese detalle es secundario frente al modelo filtrado, ayuda a dimensionar el alcance del material que quedó expuesto por la falla operativa.

Un episodio que vuelve a poner presión sobre la gobernanza de la IA

El caso de Mythos llega en un momento en que los grandes laboratorios de IA intentan equilibrar velocidad de innovación, presión comercial y controles de seguridad. A medida que los modelos mejoran en programación, razonamiento y auditoría de sistemas, también crece el riesgo de que esas habilidades se traduzcan en herramientas ofensivas para actores maliciosos.

La filtración también deja una lección incómoda para una industria que insiste en la importancia de la seguridad. Un laboratorio que advierte sobre amenazas cibernéticas emergentes terminó exponiendo, por un error humano en su CMS, borradores de producto, documentos internos y material de planificación corporativa.

Por ahora, Anthropic no ha anunciado una fecha de lanzamiento general para Mythos o Capybara. Lo que sí dejó claro es que el modelo existe, que está en pruebas tempranas con clientes seleccionados y que la empresa considera su potencia lo bastante sensible como para justificar un despliegue gradual.

Si esa cautela basta o no, dependerá tanto de los resultados técnicos como de la capacidad del sector para construir marcos de acceso y supervisión más robustos. En la IA avanzada, el poder del modelo ya no se mide solo por sus benchmarks, sino también por la seriedad con la que se gestionan sus consecuencias.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público

Este artículo fue escrito por un redactor de contenido de IA

 


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín