Por Canuto  

Microsoft presentó una serie de herramientas para hacer que los agentes de IA sean más útiles dentro de empresas y productos, pero también más controlables. ACS, ASSERT y Scout apuntan a un mismo problema: cómo permitir que la IA actúe con autonomía sin perder auditoría, seguridad ni supervisión humana.
***

  • Microsoft lanzó ACS, una especificación abierta para definir políticas sobre lo que un agente de IA puede o no puede hacer.
  • La compañía también presentó ASSERT, un marco de código abierto que convierte descripciones en lenguaje natural en pruebas de comportamiento para sistemas de IA.
  • Scout, su nuevo asistente personal para Microsoft 365, busca llevar agentes persistentes y personalizables al trabajo diario, con controles de conformidad integrados.

 


Microsoft está moviendo sus piezas para una etapa más compleja de la inteligencia artificial empresarial. La compañía no solo quiere que los agentes de IA respondan preguntas, sino que ejecuten tareas, usen herramientas, trabajen sobre calendarios, administren información y acompañen al usuario en flujos laborales completos.

Ese avance abre una pregunta incómoda para cualquier empresa: ¿cómo se controla a un agente que puede actuar en múltiples sistemas, tomar decisiones intermedias y operar con cierta autonomía? La respuesta de Microsoft llega en tres frentes: una especificación de control llamada ACS, un marco de pruebas llamado ASSERT y un asistente personal llamado Scout.

De acuerdo con reportes de Ram Iyer y Russell Brandom en TechCrunch, los anuncios llegaron el día de hoy, en el marco de una nueva ola de productos de IA de Microsoft. El paquete apunta a desarrolladores, equipos de cumplimiento, áreas de seguridad y usuarios tempranos del ecosistema Microsoft 365.

ACS busca convertir las reglas de seguridad en una capa común

El primer anuncio clave fue Agent Control Specification, o ACS. Microsoft la presenta como una especificación de código abierto que permite definir, de forma más consistente, qué puede hacer un agente de IA dentro de una aplicación o flujo de trabajo.

La idea central es sencilla, aunque su implementación puede ser profunda. Los equipos de desarrollo, cumplimiento y seguridad pueden escribir archivos de políticas que definan acciones permitidas, acciones prohibidas, momentos donde debe intervenir una persona y evidencias que deben quedar registradas para revisión posterior.

ACS aparece en un contexto donde muchos desarrolladores aún controlan agentes mediante soluciones dispersas. Algunos incluyen instrucciones en el prompt del sistema. Otros agregan verificaciones personalizadas en el código de la aplicación. También se usan clasificadores para detectar entradas o salidas problemáticas.

Estos métodos pueden funcionar en casos específicos, pero suelen crear controles fragmentados. Para una empresa grande, esa fragmentación complica la auditoría, dificulta la reutilización entre frameworks y aumenta el riesgo de que una política no viaje con el agente cuando cambia de entorno.

Microsoft plantea ACS como una capa común de gobernanza. La especificación permite evaluar el comportamiento del agente en varios “puntos de intercepción”. Esas comprobaciones pueden ocurrir antes de que el agente reciba una entrada, antes de que llame a una herramienta, después de que una herramienta devuelva un resultado y antes de enviar la respuesta final al usuario.

En cada punto, una política puede permitir una acción, bloquearla, redactar información sensible o pedir aprobación humana. Este enfoque resulta relevante para compañías que deben cumplir reglas internas, normas regulatorias o límites de privacidad al usar IA generativa en operaciones sensibles.

ACS también permite insertar clasificadores para entradas y salidas. Esos clasificadores pueden categorizar información, anticipar resultados o ayudar a determinar cómo debe responder un agente. Microsoft también contempla el uso de modelos de lenguaje con prompts como una especie de “juez” de políticas.

La especificación añade lógica para revisar llamadas a herramientas, selección de herramientas, precisión de entrada, uso de salida y respuestas. Además, las políticas pueden escribirse como archivos individuales. Esto permite empaquetarlas con los agentes para que una política de seguridad acompañe al sistema en distintos frameworks y entornos.

Microsoft distribuye ACS como un SDK con complementos para LangChain, OpenAI Agents SDK, Anthropic Agents SDK, AutoGen, CrewAI, Semantic Kernel, Microsoft.Extensions.AI, herramientas MCP y otros entornos. Esa compatibilidad busca reducir la fricción para equipos que ya desarrollan agentes sobre varias capas técnicas.

ASSERT convierte políticas en pruebas de comportamiento

El segundo anuncio fue ASSERT, sigla de Adaptive Spec-driven Scoring for Evaluation and Regression Testing. Microsoft lo describe como un marco de código abierto para evaluar comportamientos de IA específicos de una aplicación.

El problema que intenta resolver es distinto al de los benchmarks generales. Los laboratorios de IA ya evalúan modelos en seguridad, cumplimiento, alineación, adulación y otras dimensiones amplias. Sin embargo, una empresa necesita saber si su propio sistema se comporta bien dentro de su producto, sus herramientas y sus políticas internas.

ASSERT toma descripciones de alto nivel escritas en lenguaje natural. Esas descripciones pueden incluir objetivos, políticas o comportamientos esperados. Luego las convierte en un conjunto estructurado de conductas aceptables e inaceptables, genera escenarios problemáticos, crea casos de prueba, los ejecuta contra el sistema objetivo y puntúa los resultados.

El marco también puede registrar las rutas que toma el sistema de IA. Eso incluye acciones intermedias y llamadas a herramientas. Para los desarrolladores, esa trazabilidad ayuda a identificar dónde ocurre una falla, en vez de limitarse a observar que el resultado final salió mal.

Microsoft ofreció un ejemplo orientado a un agente de investigación de documentos. Un desarrollador podría especificar que el agente no debe enviar correos electrónicos a personas fuera de la empresa. También podría limitar cierta información confidencial a ejecutivos de nivel C y pedir resúmenes concisos que consideren el contexto previo.

Con esas reglas, ASSERT generaría pruebas para verificar si el sistema las cumple de forma continua. Esto resulta importante para agentes que no solo responden texto, sino que eligen herramientas, consultan documentos, interpretan permisos y pueden iniciar acciones dentro de sistemas corporativos.

Sarah Bird, directora de producto de IA Responsable en Microsoft, resumió el enfoque con una frase directa: “Una de las cosas que hemos aprendido es que las evaluaciones son absolutamente críticas para tomar buenas decisiones”. Según Bird, si una organización no entiende el comportamiento de su sistema de IA, le resulta muy difícil saber si cumple su propio estándar.

Bird agregó que, para construir un sistema confiable, las organizaciones deben evaluar muchas más dimensiones específicas de la aplicación. ASSERT puede usarse durante la construcción del sistema, después del despliegue y también para monitoreo continuo.

El lanzamiento se inserta en una tendencia más amplia. A medida que los modelos ganan capacidades, investigadores y empresas prestan más atención a pruebas repetibles y comprobaciones de regresión. Iniciativas como HELM de Stanford, AILuminate de MLCommons y grupos de evaluación como METR ya trabajan con benchmarks para medir comportamientos bajo distintas condiciones.

Scout lleva agentes persistentes a Microsoft 365

El tercer componente es Scout, un asistente personal de IA para Microsoft 365 inspirado en OpenClaw. Ese proyecto generó interés a comienzos de 2026 por mostrar el poder y también el caos de un agente de IA con pocas restricciones.

OpenClaw perdió impulso después de que OpenAI contratara a su fundador, pero su influencia sigue presente. Microsoft ahora toma parte de ese marco para construir Scout, un asistente agéntico siempre activo que trabaja junto al usuario con identidad y estilo persistentes.

Los usuarios pueden nombrar su propia instancia de Scout. En una demostración citada por la fuente, el asistente se llamaba Sebastian. La expectativa de Microsoft es que cada usuario le dé retroalimentación continua sobre las tareas que desea automatizar.

Omar Shahine, vicepresidente de Scout, explicó el concepto con foco en la personalización. “Todos tenemos nuestras peculiaridades interesantes en la forma en que trabajamos, y la gente está codificando esos patrones en memorias y habilidades que persisten en su agente”, dijo. Luego añadió que el agente se vuelve más capaz, entiende mejor al usuario, gana más agencia y ejerce juicios.

Scout estará disponible a través del programa Frontier de Microsoft. Ese programa ofrece a usuarios tempranos acceso a productos experimentales de la compañía. Para utilizar Scout, los usuarios necesitarán una suscripción a GitHub Copilot.

El asistente opera desde la nube, pero también funciona en el escritorio y en el navegador web. Esa arquitectura facilita conectarlo con bandejas de entrada, calendarios y otros sistemas que forman parte de la rutina laboral.

Microsoft incluirá habilidades preempaquetadas para gestión de calendario y redacción de agendas de reuniones, entre otras funciones. Aun así, Shahine considera que el mayor valor aparecerá cuando los usuarios desarrollen sus propias habilidades y adapten el agente a sus patrones de trabajo.

Ese ciclo de personalización tiene una consecuencia comercial evidente. Mientras más invierte una persona en entrenar su asistente, más difícil resulta abandonarlo. Las herramientas de IA de consumo ya muestran ese efecto, porque acumulan preferencias, memoria y contexto que aumentan su utilidad con el tiempo.

Más autonomía, pero con registros y aprobación humana

El lado delicado de Scout es el mismo que acompaña a cualquier agente autónomo. Si un asistente puede actuar sobre correo, calendario y documentos, también puede cometer errores con impacto real. OpenClaw ya había mostrado ese riesgo cuando surgieron reportes sobre un agente que actuó de forma errática dentro de la bandeja de entrada de un investigador, entre otros ejemplos.

Microsoft intenta responder con protecciones integradas. Scout incluirá un “sistema de conformidad de políticas” que verificará de manera continua si el sistema opera de acuerdo con las directrices establecidas. Cada verificación generará su propio registro de auditoría.

Ese punto conecta Scout con ACS y ASSERT. La compañía parece construir una pila completa para agentes: políticas portables, pruebas específicas por aplicación y asistentes persistentes que operan dentro de Microsoft 365. En conjunto, la estrategia busca equilibrar productividad y control.

Para empresas reguladas, ese equilibrio puede definir la adopción de agentes de IA. Un banco, una aseguradora, una firma legal o una compañía pública no solo necesita que el agente sea útil. También necesita evidencias, límites claros, capacidad de revisión y mecanismos para involucrar humanos cuando una acción lo requiere.

Los anuncios también muestran una transición en la industria. La conversación ya no se limita a qué modelo razona mejor o responde con más fluidez. Ahora el centro está en cómo se gobiernan sistemas que actúan, recuerdan, llaman herramientas y operan dentro de procesos empresariales.

Scout forma parte de una gama más amplia de productos de IA presentados por Microsoft en su conferencia anual para desarrolladores Build. Entre ellos figuran Project Solara, con orientación hacia hardware, una actualización de Copilot y un nuevo modelo de IA de razonamiento.

La apuesta de Microsoft no elimina los riesgos de los agentes autónomos. Pero sí reconoce que el mercado empresarial necesita algo más que entusiasmo por la automatización. Necesita pruebas, controles, auditorías y reglas que puedan seguir al agente incluso cuando cambia el entorno técnico.

Si ACS logra estandarizar políticas, ASSERT facilita evaluaciones prácticas y Scout demuestra utilidad real sin incidentes graves, Microsoft podría fortalecer su posición en la próxima fase de la IA empresarial. Esa fase no premiará solo a los modelos más capaces, sino a los sistemas que las organizaciones puedan controlar con confianza.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín