Por Canuto  

Anthropic salió al paso de las acusaciones sobre un supuesto jailbreak de Claude Fable 5, su nuevo modelo de IA, y sostuvo que las pruebas difundidas no demuestran una evasión real de sus salvaguardas más críticas.
***

  • Anthropic afirma que el supuesto jailbreak de Claude Fable 5 no burló sus sistemas centrales de seguridad.
  • Pliny the Liberator dijo haber obtenido respuestas sobre ciberseguridad, química, manipulación psicológica y explosivos.
  • La empresa sostiene que sus clasificadores independientes siguieron bloqueando asistencia significativa para daños reales.


Anthropic rechazó las afirmaciones de que Claude Fable 5, su modelo de inteligencia artificial recientemente lanzado, haya sido comprometido mediante un jailbreak basado en prompts. La empresa sostuvo que las evidencias difundidas por un investigador conocido en línea no prueban una evasión real de sus protecciones más sensibles.

La controversia surgió poco después de la disponibilidad general del modelo, presentada el martes por la compañía como una nueva propuesta de la clase Mythos. Según explicó la empresa, ese sistema incorpora salvaguardas diseñadas para limitar su uso en dominios de alto riesgo.

El caso ha llamado la atención porque toca uno de los debates más delicados de la industria de IA. A medida que los modelos ganan capacidad técnica, también aumenta la presión para demostrar que no pueden ser utilizados con facilidad en actividades peligrosas.

En este contexto, Claude Fable 5 fue descrito como un modelo particularmente potente en áreas como la ciberseguridad. Precisamente por eso, Anthropic indicó que su despliegue se apoyó en un sistema avanzado de clasificadores y en extensos ejercicios de red teaming.

La versión de la empresa contrasta con la del actor conocido como Pliny the Liberator, una figura reconocida por publicar jailbreaks de modelos de IA. El intercambio reaviva una discusión que va más allá de un solo producto y apunta al límite entre una respuesta inconveniente del modelo y una falla genuina de seguridad.

Qué alegó Pliny the Liberator sobre Claude Fable 5

De acuerdo con la información reportada por SecurityWeek, Pliny the Liberator aseguró haber “liberado” a Fable 5 al eludir su capa restrictiva de seguridad. El señalamiento apareció poco después del lanzamiento general del modelo.

El investigador dijo que utilizó métodos sofisticados de prompting multiagente para lograrlo. Según su relato, ese enfoque permitió obtener información útil sobre temas sensibles.

Entre los asuntos mencionados por Pliny the Liberator figuraron la ciberseguridad, la química, la manipulación psicológica y los explosivos. Esos campos son especialmente sensibles porque pueden derivar en daños reales si un sistema ofrece asistencia operativa detallada.

Para respaldar sus afirmaciones, el investigador publicó varias capturas de pantalla. También difundió lo que aseguró era el prompt interno del sistema de Fable 5.

Ese supuesto prompt incluía instrucciones sobre la personalidad del modelo, sus clasificadores de seguridad, sus comportamientos de retroceso, pautas de tono y lógica de rechazo. La publicación de ese material alimentó la percepción de que el modelo había sido expuesto más allá de sus límites previstos.

La respuesta de Anthropic y su definición de un jailbreak real

Consultada sobre el tema, Anthropic afirmó que la publicación del investigador no demuestra un jailbreak de los sistemas de seguridad de Fable 5. La empresa marcó una diferencia clara entre forzar al modelo a seguir conversando y vulnerar sus barreras centrales.

Según un portavoz de la compañía, un jailbreak verdadero tendría que eludir las salvaguardas nucleares del sistema. Además, debería proporcionar asistencia significativa para actividades de alto riesgo, como el desarrollo de armas biológicas o ciberataques sofisticados.

Anthropic sostuvo que lo mostrado hasta ahora se parece más a una limitación conversacional conocida en casi todos los grandes modelos de lenguaje. En otras palabras, el modelo puede ser persuadido para seguir respondiendo pese a ciertos rechazos, sin que eso implique que sus defensas más críticas hayan sido desactivadas.

La empresa remarcó que sus protecciones más fuertes contra los riesgos más peligrosos no dependen únicamente del modelo principal. Según su explicación, esas barreras son aplicadas por clasificadores independientes que operan por separado.

Ese punto es central para la defensa de Anthropic. Si superar un rechazo conversacional no desactiva los clasificadores externos, entonces el modelo podría seguir pareciendo flexible en diálogo, pero sin cruzar el umbral hacia instrucciones realmente peligrosas.

Cómo funciona el retroceso a Claude Opus 4.8 en tareas sensibles

Anthropic explicó que Claude Fable 5 fue lanzado con restricciones específicas para ciertos dominios de alto riesgo. Entre ellos mencionó de forma explícita la ciberseguridad y la biología.

En ciberseguridad, la preocupación es que un modelo muy capaz pueda ser usado para desarrollar exploits o mejorar ataques. En biología, el riesgo señalado por la compañía es que pueda ayudar en la creación de armas biológicas o químicas.

Para reducir ese peligro, la empresa indicó que el sistema retrocede automáticamente a Claude Opus 4.8 cuando detecta solicitudes en esas áreas sensibles. Ese modelo es menos capaz, según la propia descripción de Anthropic.

El mecanismo de fallback o retroceso busca limitar la potencia disponible precisamente donde más preocupa un posible abuso. No se trata solo de negar respuestas, sino de reencaminar la interacción hacia un sistema menos riesgoso.

Desde una perspectiva técnica y regulatoria, este tipo de arquitectura refleja una tendencia creciente en la industria. En vez de confiar en una sola capa de seguridad, las empresas combinan filtros, clasificadores, degradación de capacidades y monitoreo del comportamiento del modelo.

Qué encontró Anthropic al revisar los ejemplos difundidos

Tras examinar el material compartido por el investigador, Anthropic concluyó que parte de las salidas publicadas no habían sido producidas por Fable 5. Ese detalle introduce dudas sobre la trazabilidad de algunas pruebas mostradas al público.

En los casos en que la empresa sí reconoció que las respuestas provenían del modelo, afirmó que el contenido era general y ya estaba disponible en fuentes públicas. Según su valoración, esas respuestas no ofrecían un aumento significativo para causar daño real.

La compañía añadió que realizó una revisión más amplia del uso reciente de Fable 5. Ese análisis, dijo, no encontró evidencia de que sus salvaguardas hubieran sido eludidas con éxito para generar contenido verdaderamente peligroso.

La diferencia entre información pública y asistencia accionable es importante en este debate. Un sistema puede mencionar conceptos generales sobre una materia sensible sin necesariamente entregar instrucciones concretas, optimizadas o novedosas para ejecutar un ataque o fabricar agentes peligrosos.

Aun así, el episodio deja abierta una tensión conocida en el desarrollo de IA avanzada. Incluso cuando una empresa afirma que no hubo vulneración crítica, la sola circulación de capturas, prompts y ejemplos suele impactar la percepción pública sobre la confiabilidad del sistema.

Por qué este caso importa para la seguridad de la IA

La discusión alrededor de Claude Fable 5 llega en un momento en que la seguridad de los modelos ya no se mide solo por su rendimiento. También se evalúa por su resistencia a la manipulación, su capacidad de rechazar usos peligrosos y la solidez de sus controles fuera del modelo.

Los jailbreaks se han convertido en una especie de prueba informal de estrés para los sistemas generativos. Sin embargo, no todos tienen el mismo peso, porque algunos revelan respuestas incómodas, mientras otros podrían exponer fallas con consecuencias operativas serias.

En este caso, Anthropic insiste en que lo observado pertenece a la primera categoría. La empresa no niega que existan límites conversacionales persistentes en los modelos de lenguaje, pero afirma que eso no equivale a una derrota de sus barreras de seguridad más importantes.

Para empresas, reguladores y usuarios avanzados, el matiz es relevante. Un modelo que cede en tono o continuidad conversacional plantea un problema distinto al de uno que facilita de forma sustancial la creación de malware, explosivos o agentes biológicos.

El episodio también muestra cómo la verificación pública de afirmaciones sobre IA sigue siendo compleja. Cuando las pruebas se apoyan en capturas, prompts filtrados y ejemplos parciales, la discusión técnica suele mezclarse con reputación, marketing y disputa narrativa.

Por ahora, Anthropic mantiene que Claude Fable 5 conserva intactas sus defensas esenciales. La controversia, sin embargo, sugiere que cada nuevo lanzamiento de modelos más potentes vendrá acompañado de un escrutinio más agresivo sobre si sus promesas de seguridad resisten el mundo real.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín