Por Canuto  

Los agentes de IA ya no solo responden texto: buscan información, guardan memoria e invocan herramientas con efectos reales. Un nuevo análisis académico advierte que este modelo mueve la superficie de ataque al tiempo de ejecución, donde el contexto, la memoria y las herramientas se vuelven una cadena de suministro dinámica susceptible a manipulación, escalamiento de privilegios y hasta propagación autónoma de “gusanos” generativos.
***

  • El riesgo central: la IA agentica resuelve dependencias en tiempo de ejecución, lo que abre ataques vía datos, memoria y herramientas sin tocar el modelo ni la infraestructura.
  • Dos frentes de ataque: cadena de suministro de datos (inyección en contexto y envenenamiento persistente) y cadena de suministro de herramientas (descubrimiento, implementación e invocación).
  • La amenaza emergente: el “Viral Agent Loop”, donde agentes pueden autopropagar cargas maliciosas con permisos legítimos y sin explotar fallas de bajo nivel.

 


Los sistemas de IA agentica, construidos sobre modelos de lenguaje (LLMs), están dejando de ser simples generadores de texto. Cada vez con más frecuencia operan como “agentes” capaces de recuperar información externa, mantener memoria persistente e invocar herramientas que modifican estados digitales o incluso físicos.

Ese salto funcional trae un costo: cambia la forma en que se define y se defiende la superficie de ataque. En lugar de concentrarse en el software y dependencias que se validan antes del despliegue, la amenaza se traslada al tiempo de inferencia, cuando el agente arma su contexto y sus capacidades sobre la marcha.

El estudio “Agentic AI as a Cybersecurity Attack Surface: Threats, Exploits, and Defenses in Runtime Supply Chains”, de Xiaochong Jiang, Shiqi Yang, Wenting Yang, Yichen Liu y Cheng Ji, sistematiza este nuevo panorama. Su tesis es directa: en el runtime, el contexto funciona como control de ejecución, y por eso el entorno se convierte en un proveedor potencialmente hostil.

Del software tradicional a la cadena de suministro en tiempo de ejecución

En el software tradicional, las dependencias suelen resolverse en etapas de construcción o despliegue. Librerías y binarios se fijan a versiones específicas, y es viable auditarlos, firmarlos o escanearlos antes de ejecutar.

En sistemas agenticos ocurre lo contrario. Los agentes incorporan dependencias en tiempo real: documentos recuperados, páginas web, APIs y herramientas ejecutables. Además, el proceso que elige qué incorporar no es determinista; depende de decisiones probabilísticas guiadas por semántica.

Los autores llaman a este fenómeno “Stochastic Dependency Resolution”. Bajo este modelo, lo que el agente termina usando como insumo o como capacidad operativa no está completamente enumerado ni fijado antes de correr, lo que complica los supuestos clásicos de seguridad.

La consecuencia práctica es que un adversario no necesita modificar pesos del modelo, prompts del sistema o infraestructura. Le basta con influir los artefactos del entorno que el agente observa e integra. Esta postura se resume en una idea: el contexto deja de ser solo entrada y pasa a ser parte activa de la superficie de ataque.

El adversario “man-in-the-environment” y el problema de confundir datos con instrucciones

El trabajo define un modelo adversarial específico: el “Man-in-the-Environment” (MitE). En esta configuración, el atacante actúa como un “proveedor” del runtime, publicando datos o capacidades que parecen legítimos, pero están diseñados para manipular el comportamiento del agente cuando los consume.

El soporte conceptual es la “Prompt-Data Isomorphism”. En términos simples, un fragmento de datos recuperado de un sitio externo puede “subirse de rango” y convertirse en instrucciones efectivas, porque el LLM lo interpreta dentro del flujo de razonamiento.

Esto no se limita a textos. El estudio también recoge evidencia de ataques multimodales, donde pequeñas perturbaciones en imágenes o sonidos pueden decodificarse en payloads textuales que desvían salidas, con tasas de éxito reportadas de hasta 98% en trabajos citados por los autores.

El objetivo del adversario puede variar: desalinear sutilmente al agente, exfiltrar información contextual o inducir acciones no autorizadas. El punto común es que el ataque ocurre en la interacción con el entorno, no en la capa de entrenamiento o en el binario.

Cadena de suministro de datos: ataques transitorios y persistentes

La primera gran categoría que sistematiza el paper es la cadena de suministro de datos. Aquí el foco está en el módulo de percepción del agente, que ingiere instrucciones, historial, bases externas y otros insumos que alimentan el contexto.

Los autores organizan los ataques por persistencia. En la manipulación “dentro de la sesión”, el blanco es la ventana de contexto: un buffer inmediato para razonamiento. Este tipo de ataque tiende a “expirar” cuando la sesión se reinicia.

El ejemplo más conocido es la inyección indirecta de prompts: instrucciones maliciosas ocultas en una fuente externa que el agente consulta (correo, web, documentos). El agente concatena esos contenidos a la consulta y los pasa al LLM, abriendo la puerta a que datos no confiables dicten acciones.

El segundo vector dentro de sesión explota el In-Context Learning (ICL). Se cita el enfoque de “Many-Shot Jailbreaking”, donde el atacante inunda el contexto con diálogos ficticios que muestran al modelo cumpliendo solicitudes peligrosas. Según la caracterización discutida, la tasa de éxito crece con el número de “shots” y puede sobrepasar alineamientos dentro de una sola sesión.

En la manipulación “a través de sesiones”, el objetivo es más grave: contaminar memoria externa y persistente. En sistemas con RAG, la etapa de recuperación trae fragmentos relevantes desde un corpus vectorizado, y luego se integran al prompt para guiar la generación.

Ese diseño permite ataques como la contaminación del corpus para forzar que ciertos pasajes aparezcan como relevantes en múltiples consultas. El paper destaca resultados citados donde inyectar solo 0,1% del corpus puede llevar a 70% de tasa de éxito en consultas objetivo, en el marco de PoisonedRAG discutido por los autores.

También se describen backdoors que permanecen dormidos hasta que un disparador en una consulta futura activa la recuperación del rastro envenenado, con tasas de éxito superiores a 80% en tareas autónomas, según AGENTPOISON citado en el estudio. Y se agrega que sistemas GraphRAG tampoco están a salvo, ya que pueden sufrir envenenamiento a nivel de relaciones mediante aristas maliciosas en el grafo.

Más allá de RAG, se señala el envenenamiento de memoria de largo plazo (LTM). La lógica es inquietante: el agente puede “autoenvenenarse” si se le induce a guardar registros maliciosos como experiencias válidas. Se menciona el marco MINJA, que logra inyección en memoria solo vía consultas, con una tasa de éxito promedio de 76,8% reportada en el trabajo referido.

Cadena de suministro de herramientas: cómo se secuestra una capacidad legítima

La segunda gran categoría es la cadena de suministro de herramientas, que define qué puede hacer el agente. Aquí la falla ya no es solo “una mala respuesta”, sino efectos en el mundo: archivos, redes, cuentas o sistemas físicos.

Los autores proponen entender una herramienta como una capacidad delegada que une intención semántica con código ejecutable, bajo un alcance de autoridad. Para que sea seguro, el agente debe preservar cuatro invariantes: integridad de identidad, enlace semántico, autoridad acotada e integridad de implementación.

El pipeline se divide en tres fases: Descubrimiento (intención a Tool ID), Implementación (cargar Tool ID a código en runtime) e Invocación (ejecución con credenciales, argumentos y efectos). Cada fase abre una familia de ataques distinta.

En Descubrimiento, aparece el “Hallucination Squatting”. Si el agente alucina un nombre de paquete plausible, un atacante puede registrarlo antes y convertir un error de resolución en ejecución de código malicioso. El estudio sostiene que los nombres alucinados resultan predecibles y recurrentes, lo que habilita el abuso sistemático.

En la misma fase se describe el “Semantic Masquerading”. Si la selección depende de similitud semántica entre intención y descripciones, el atacante puede optimizar metadatos para desplazar herramientas legítimas. Incluso perturbaciones menores en descripciones pueden degradar la selección, de acuerdo con benchmarks discutidos por los autores.

En Implementación, el problema ya no es elegir mal, sino ejecutar código alterado. Se reseñan extensiones con puertas traseras que se activan con disparadores, manteniendo utilidad aparente, y también explotación de dependencias transitivas, ya que instaladores pueden ejecutar código durante la instalación. En flujos autónomos, esa instalación se vuelve un “paso funcional” y deja de tratarse como operación crítica de seguridad.

En Invocación, el riesgo se concentra en permisos y parámetros. El paper explica la invocación sobre un contexto de ejecución que incluye credenciales y recursos. Un agente con permisos amplios puede caer en un escenario tipo “confused deputy”, donde termina aplicando su autoridad a acciones no justificadas por la intención original.

Incluso si la herramienta es legítima y las credenciales también, la inyección en argumentos puede producir efectos excesivos, en una analogía con vulnerabilidades de capa de aplicación como SSRF. Se menciona además el cruce con patrones como Cross-Plugin Request Forgery, donde el contenido inyectado lleva al agente a generar parámetros maliciosos para herramientas conectadas.

Viral Agent Loop: cuando el ataque se autopropaga sin explotar fallas de bajo nivel

El giro más importante del análisis llega cuando se conecta la cadena de datos con la de herramientas. Los autores describen que, en sistemas cíclicos, las salidas del agente pueden volver al entorno como entradas para otros agentes, cerrando el bucle.

Con esa recursión, un agente comprometido deja de ser solo víctima y pasa a ser portador. El estudio define esto como “Viral Agent Loop”, donde una carga induce un efecto en el entorno mediante herramientas, y luego ese efecto se recupera como contexto por otros agentes.

Se cita evidencia experimental de “gusanos generativos”, como Morris II, donde un agente que procesa un correo envenenado puede exfiltrar contexto y además propagar la misma carga a agentes posteriores usando herramientas de comunicación autorizadas. El paralelismo con el gusano Morris de 1988 es conceptual, pero el mecanismo cambia: aquí la propagación ocurre en la capa semántica.

La persistencia puede ser aún mayor si los agentes tienen acceso de escritura a repositorios compartidos. Un agente puede subir documentos o código contaminado a wikis corporativas o sistemas de control de versiones, y luego otros agentes lo reingieren vía recuperación, degradando progresivamente la integridad de la base de conocimiento.

Defensas propuestas y el llamado a un “zero-trust runtime”

El paper organiza defensas existentes en cinco capas de runtime: percepción, memoria, resolución, implementación e invocación. La idea es que las mitigaciones aisladas no alcanzan, porque el problema es estructural y cíclico.

Para percepción, se destacan enfoques de jerarquía de instrucciones, que buscan separar comandos privilegiados de datos no confiables mediante delimitadores y reglas de precedencia. Se suma la verificación de intención, con mecanismos que intentan detectar si una acción nace de intención del usuario o de un disparador inyectado desde el entorno.

Para memoria, se mencionan filtros estadísticos post-recuperación en RAG, pero el propio estudio advierte límites ante envenenamiento estructural en grafos. Por eso introduce la necesidad de procedencia criptográfica y puntuación de confianza basada en fuentes verificadas, además de auditoría de escrituras en memorias de estado del agente.

En herramientas, el texto insiste en volver determinista la resolución. Eso implica listas permitidas en registros, y evitar que el modelo “adivine” herramientas por similitud semántica. Para la integridad de implementación, propone verificación antes de comprometer cambios, con SBOMs firmados y marcos tipo SLSA.

En invocación, sugiere defensa en profundidad con un segundo modelo supervisor, aislado, que audite llamadas antes de que se comprometan. A eso se suma seguridad por capacidades: permisos acotados y efímeros, en lugar de credenciales persistentes, junto con restricciones estructurales como grafos de dependencia entre herramientas para bloquear secuencias peligrosas.

En conjunto, los autores proponen una “Zero-Trust Runtime Architecture” basada en tres imperativos: enlace determinista de capacidades por procedencia criptográfica, control de flujo con taint analysis adaptado a razonamiento neural y una arquitectura auditor-worker que funcione como firewall semántico. El mensaje final es contundente: en el runtime agentico, el contexto es código.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín