Un nuevo trabajo académico plantea que la verdadera fragilidad de muchos modelos abiertos de inteligencia artificial no está solo en los prompts o embeddings, sino en mecanismos internos más profundos. La propuesta, llamada SAHA, apunta a las cabezas de atención vinculadas a la seguridad y logra superar a técnicas previas de jailbreak en Llama, Qwen y DeepSeek.
***
- El estudio propone SAHA, un marco de jailbreak que ataca cabezas de atención profundas relacionadas con la seguridad.
- Según los autores, el método mejora la tasa de éxito de ataque en 14% frente a referencias previas.
- Las pruebas sobre Llama3.1, Qwen1.5 y DeepSeek-LLM sugieren que las defensas superficiales no bastan.
La carrera por hacer más seguros los modelos abiertos de inteligencia artificial acaba de recibir una nueva señal de alerta. Un trabajo titulado Depth Charge: Jailbreak Large Language Models from Deep Safety Attention Heads, firmado por Jinman Wu, Yi Xie, Shiqian Zhao y Xiaofeng Chen, sostiene que buena parte de las defensas actuales se concentran en niveles demasiado superficiales del modelo y dejan sin cubrir componentes internos más sensibles.
En términos sencillos, los autores afirman que muchos ataques de jailbreak se han enfocado en manipular prompts o embeddings. Esos enfoques han mostrado resultados importantes, pero también pueden ser mitigados por mecanismos de alineación relativamente simples. El nuevo estudio busca ir más abajo, hasta las cabezas de atención del transformador, para demostrar que allí persisten vulnerabilidades relevantes.
El contexto importa. Los modelos de lenguaje abiertos, como Llama, Qwen o DeepSeek, publican su arquitectura y pesos, lo que facilita auditorías, investigación y adopción. Pero esa misma apertura también permite que atacantes o equipos de red teaming exploren con mayor precisión dónde residen las debilidades internas del sistema.
La tesis central del trabajo es que la seguridad de muchos LLM podría dar una falsa sensación de solidez. Si las pruebas defensivas solo bloquean ataques en la capa de entrada o en representaciones latentes superficiales, el modelo puede seguir siendo vulnerable en partes más profundas de su mecanismo de razonamiento.
Qué es SAHA y por qué apunta a las cabezas de atención
La propuesta de los investigadores se llama SAHA, sigla de Safety Attention Head Attack. El método apunta a las cabezas de atención vinculadas con comportamientos de seguridad. En la arquitectura transformer, estas cabezas son subcomponentes que ayudan al modelo a procesar relaciones entre tokens y a distribuir el foco durante la generación de texto.
La idea detrás de SAHA es que no todas las cabezas de atención pesan igual en la conducta del modelo. Algunas serían más relevantes para sostener respuestas seguras o rechazos ante solicitudes peligrosas. Si un atacante identifica esas unidades críticas y altera su activación con perturbaciones pequeñas, el modelo podría dejar de negarse y empezar a producir contenido prohibido.
El trabajo divide el método en dos módulos. El primero se llama AIR, o Ablation-Impact Ranking. Este componente busca localizar qué cabezas son más importantes para la seguridad del modelo. Para ello, utiliza un clasificador de seguridad y mide cuánto cae su precisión cuando se anula una cabeza de atención concreta.
Cuanto mayor es esa caída de desempeño, mayor sería la importancia de esa cabeza para mantener el comportamiento seguro. Luego, el sistema genera un ranking y selecciona las cabezas más críticas. Según el estudio, esta estrategia causal resulta más precisa que métodos heurísticos o basados solo en correlación.
El segundo componente es LWP, o Layer-Wise Perturbation. Esta técnica reparte el presupuesto de perturbación de forma estructurada entre capas del modelo. En vez de asignar un solo presupuesto global, distribuye las modificaciones por capa y prioriza las cabezas que AIR ya identificó como más sensibles.
Los autores indican que esa asignación por capas ayuda a maximizar el deterioro del mecanismo de seguridad sin destruir la coherencia semántica de la respuesta. En otras palabras, el modelo sigue respondiendo de forma relevante al pedido, pero pierde parte de sus frenos internos.
Resultados en Llama, Qwen y DeepSeek
Para evaluar la propuesta, el estudio probó SAHA sobre tres modelos abiertos populares: Qwen1.5-7B-Chat, Llama3.1-8B-Instruct y Deepseek-LLM-7B-Chat. También utilizó dos benchmarks conocidos en seguridad de IA: JailbreakBench y MaliciousInstruct, cada uno con 100 instrucciones o comportamientos dañinos.
Las comparaciones incluyeron siete líneas base, entre ellas PAIR, GCG, AutoDAN, AutoDAN-Turbo, SCAV, CAA y ConVA. Es decir, se enfrentó tanto a ataques a nivel de prompt como a ataques a nivel de embedding. El criterio principal fue la tasa de éxito del ataque, o ASR, junto con BERTScore para medir la relevancia semántica de la respuesta.
Según los resultados reportados, SAHA mejoró el ASR en 14% frente a los mejores métodos previos. En Llama3.1 sobre JailbreakBench alcanzó un ASR de 0,85 con BERTScore de 0,76. En MaliciousInstruct, sobre el mismo modelo, llegó a 0,87 y 0,84 respectivamente.
En Qwen1.5, SAHA registró 0,82 de ASR y 0,75 de BERTScore en JailbreakBench, mientras que en MaliciousInstruct subió a 0,86 y 0,81. En DeepSeek-LLM, los valores fueron aún mayores en algunos casos: 0,91 y 0,70 en JailbreakBench, además de 0,81 y 0,77 en MaliciousInstruct.
El estudio también compara estos números con el comportamiento base de los modelos, sin ataque. Allí, por ejemplo, Llama3.1 marcó 0,06 de ASR en JailbreakBench y 0,01 en MaliciousInstruct. Eso da una idea del salto que introduce una técnica como SAHA cuando consigue tocar componentes internos más críticos.
Los autores sostienen que los ataques a nivel de prompt muestran un desempeño más frágil y dependiente del modelo, mientras que los métodos a nivel de embedding suelen enfrentar un intercambio entre éxito del ataque y pérdida de coherencia. SAHA, en cambio, habría logrado combinar una alta tasa de jailbreak con respuestas todavía semánticamente alineadas con la intención original.
Qué hallaron sobre la estructura interna de la seguridad
Más allá de los resultados de ataque, el trabajo intenta responder una pregunta más profunda sobre cómo se organiza la seguridad dentro de un LLM. Una de sus observaciones principales es que las capas de atención más profundas introducen más vulnerabilidad frente a jailbreaks. Esa conclusión es parte del fundamento conceptual de SAHA.
El estudio también examinó variantes del método. Al comparar AIR con una estrategia alternativa llamada APR, basada en capacidad predictiva individual de cada cabeza, AIR obtuvo mejores resultados. La razón propuesta es que medir el impacto causal de apagar una cabeza permite identificar mejor los puntos donde realmente vive el razonamiento de seguridad.
Algo similar ocurrió al comparar LWP con una asignación global de perturbaciones, llamada GWP. El enfoque por capas tendió a preservar mejor la fidelidad semántica y, en varios casos, también elevó el ASR. Para los autores, esto sugiere que la jerarquía interna del transformer no puede ignorarse cuando se diseñan ataques o defensas.
Otro análisis relevante giró en torno al parámetro α, que regula cuántas cabezas se retienen o perturban. El ASR creció de forma monotónica al aumentar α en los distintos modelos. Qwen1.5 y DeepSeek mostraron mejoras graduales, mientras que Llama3.1 exhibió un umbral más marcado cerca de α ≈ 0,45, a partir del cual la eficacia del ataque subió con fuerza.
En el plano de localización, el estudio encontró patrones compartidos y diferencias entre arquitecturas. Una señal constante fue la importancia de la última cabeza, Head 31, que aparecería con frecuencia como punto crítico para agregar rasgos de seguridad antes de la decodificación. DeepSeek presentó una concentración más amplia en capas medias y altas, Llama3.1 alrededor de la capa 7 y Qwen1.5 alrededor de la capa 5, con actividad adicional en capas bajas.
Ese hallazgo importa para quienes construyen defensas. Si distintas familias de modelos enrutan la seguridad por zonas internas distintas, entonces una defensa uniforme o puramente superficial podría dejar huecos estructurales. El estudio plantea que las futuras estrategias deberían distribuir mejor los mecanismos de seguridad dentro del cómputo interno del modelo.
Alcances, límites y relevancia para la industria
Para lectores menos familiarizados con este debate, un jailbreak es una técnica destinada a conseguir que un modelo responda algo que en teoría debería rechazar. En entornos comerciales y de código abierto, estas pruebas se usan tanto con fines ofensivos como para auditorías de seguridad antes del despliegue.
Los propios autores subrayan que su enfoque opera bajo un supuesto de caja blanca. Eso significa que requiere acceso a la estructura interna del modelo, incluidas sus cabezas de atención y gradientes. Por esa razón, SAHA no apunta de manera directa a APIs cerradas, sino a desarrolladores de modelos abiertos y equipos de seguridad que necesiten hacer pruebas de resistencia más realistas.
También aclaran que el trabajo está adaptado a arquitecturas transformer. Si la industria migra hacia otros diseños, como modelos de espacio de estados, la ubicación de los componentes críticos podría cambiar. En ese caso, una técnica como SAHA requeriría ajustes para seguir siendo útil.
Aun con esas limitaciones, la investigación aporta un mensaje claro para el ecosistema de IA. Si la alineación se refuerza solo en la superficie, el riesgo no desaparece. Más bien, puede quedar desplazado hacia mecanismos internos poco observados, listos para ser explotados por métodos más finos y difíciles de detectar.
En una etapa en la que la inteligencia artificial abierta compite por adopción masiva, ese punto toca un nervio sensible. La apertura del modelo acelera innovación, pero también eleva la necesidad de pruebas defensivas más profundas. Para la industria, la cuestión ya no sería únicamente si un modelo rechaza un prompt peligroso, sino qué tan robusto sigue siendo cuando se examinan las piezas internas que hacen posible ese rechazo.
La advertencia final del estudio va en esa dirección. Si las cabezas de atención profundas pueden convertirse en una nueva superficie de ataque, las técnicas de seguridad futuras tendrán que ser más mecanicistas, más distribuidas y más conscientes de la arquitectura. De lo contrario, la aparente fortaleza de muchos LLM abiertos podría resultar menos sólida de lo que hoy parece.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
DeFi
Investigadores detectan un nuevo MEV en Ethereum y aseguran ganancias 10 veces mayores
China
China endurece castigos por lavado con criptomonedas y uso indebido de conducción asistida
Empresas
OpenAI comprará Promptfoo para reforzar la seguridad de agentes de IA en Frontier
Criptomonedas