Self-CTRL promete IA más transparente al alinear lo que el modelo dice con lo que realmente hace

𝕏

Hace 8 minutos

Por Canuto

Un grupo de investigadores del MIT presentó Self-CTRL, una técnica de entrenamiento con aprendizaje por refuerzo que busca resolver uno de los problemas más incómodos de la IA moderna: que los modelos digan una cosa sobre sus reglas y luego actúen de otra manera. Sus pruebas muestran mejoras fuertes en transparencia, capacidad de auditoría y seguridad.
***

Self-CTRL alinea las autoexplicaciones de un modelo con su comportamiento real en tareas de razonamiento y seguridad.
En un entorno de IA constitucional, mejoró la capacidad de un auditor externo para predecir rechazos de 36% a 92%.
Cuando se aplicó para ajustar conducta, redujo la tasa de fallas en HarmBench de 15,0% a 0,5% sin elevar mucho los rechazos a pedidos inofensivos.

🤖🔍 MIT presenta Self-CTRL, una técnica de IA para mejorar la transparencia.

Alinea las autoexplicaciones de los modelos con su comportamiento real.

Resultados prometedores: capacidad de auditoría mejorada del 36% al 92%.

Reduciendo fallas de seguridad de 15% a 0.5%.

Un… pic.twitter.com/aEAhpszfU2

— Diario฿itcoin (@DiarioBitcoin) June 19, 2026

Una propuesta para cerrar la brecha entre lo que la IA dice y lo que hace

Uno de los problemas más discutidos en inteligencia artificial es que los modelos de lenguaje pueden ofrecer explicaciones plausibles sobre su conducta, pero luego responder de formas que contradicen esas mismas reglas. Esa brecha complica la auditoría, erosiona la confianza y vuelve más difícil medir si un sistema está realmente alineado.

Ese es el punto de partida de Self-CTRL: Self-Consistency Training with Reinforcement Learning, trabajo firmado por Itamar Pres, Laura Ruis, Melat Ghebreselassie, Belinda Z. Li y Jacob Andreas, afiliados a MIT CSAIL. El estudio propone un método para entrenar modelos de lenguaje de forma que sus autoexplicaciones y su comportamiento en tareas relacionadas converjan.

La idea central es simple de describir, aunque compleja de ejecutar. Si un modelo afirma que rechaza solicitudes discriminatorias, su respuesta ante una petición concreta de ese tipo debería reflejar exactamente esa política.

Según los autores, la consistencia no suele emerger por sí sola en el entrenamiento estándar de modelos. Esto ocurre porque las respuestas a preguntas puntuales y las explicaciones meta sobre cómo actúa el sistema se producen en contextos distintos, sin que el entrenamiento obligue a compararlas directamente.

Self-CTRL introduce esa comparación como objetivo explícito. Para ello, toma pares de entradas, una de nivel meta que pide una explicación y otra de nivel operativo que exige una conducta, y optimiza al modelo para que ambas salidas coincidan entre sí.

Cómo funciona Self-CTRL y por qué importa para la seguridad de los modelos

El método se apoya en aprendizaje por refuerzo. En cada par de entradas, el modelo genera por separado una explicación sobre su conducta esperada y una respuesta real ante una solicitud concreta.

Luego interviene una función de consistencia, identificada como ϕ en el paper. Esa función asigna una puntuación más alta cuando la explicación predice correctamente el comportamiento observado, y una puntuación baja cuando ambos elementos se contradicen.

Los investigadores exploran dos direcciones de ajuste. La primera, llamada explanation training, actualiza las explicaciones para que describan mejor el comportamiento actual del modelo.

La segunda, behavior training, modifica el comportamiento para que se ajuste mejor a las reglas o principios que el modelo declaró. También puede combinarse ambos enfoques en proporciones intermedias.

Esta arquitectura apunta a un objetivo relevante para la industria de IA. Un modelo que describe fielmente lo que hará puede ser más fácil de auditar, más interpretable para usuarios y desarrolladores, y potencialmente más controlable frente a riesgos operativos.

El trabajo subraya además tres ventajas. La primera es que la técnica usa la misma interfaz conversacional ya habitual en los modelos, la segunda es que escala sin etiquetar manualmente cada caso, y la tercera es que ofrece una vía autosupervisada para generalizar fuera del contexto inmediato de entrenamiento.

Resultados en una prueba formal de razonamiento probabilístico

La primera evaluación se hizo en un entorno donde la consistencia podía medirse de forma verificable. Allí, los modelos debían imitar el lanzamiento de 100 monedas sesgadas, cada una con una probabilidad latente distinta de salir cara.

En ese escenario, la conducta era generar secuencias de lanzamientos para una moneda nombrada, mientras que la explicación consistía en escribir un pequeño programa que reportara la probabilidad de cara de esa misma moneda. Así, la explicación podía compararse con el comportamiento real del modelo usando probabilidad explícita.

Los autores dividieron 100 monedas en varios grupos. Cincuenta recibieron supervisión completa, tanto en rollouts como en explicaciones, mientras que otras 50 tuvieron solo supervisión sobre sus secuencias de lanzamientos.

De ese segundo bloque, 40 monedas se usaron para Self-CTRL y 10 quedaron reservadas como conjunto retenido. Estas últimas nunca participaron en el entrenamiento de consistencia y sirvieron para medir generalización.

La métrica principal fue R² de calibración. El objetivo era medir si el sesgo articulado por el modelo coincidía con el sesgo real o con el sesgo empírico observado en sus propias secuencias, no solo si seguía el mismo orden relativo.

En la línea base, el modelo sí lograba articular bien los sesgos de las monedas con supervisión completa. Sin embargo, fallaba al describir las monedas entrenadas solo con rollouts, donde obtuvo R² = -0,23 frente al sesgo empírico y R² = -0,40 frente al sesgo real.

Después del entrenamiento con Self-CTRL en la dirección de explicaciones, la mejora fue marcada. El R² frente al sesgo empírico subió a 0,65 en las monedas experimentales, mientras que el R² frente al sesgo real avanzó a 0,60.

En las monedas retenidas, el sistema alcanzó R² = 0,64 contra los rollouts empíricos y R² = 0,63 contra el sesgo real. Esos resultados quedaron cerca de un modelo oráculo que sí recibió supervisión total, con R² = 0,62 y R² = 0,69 respectivamente.

Para los autores, este punto es importante porque sugiere que el entrenamiento por consistencia puede recuperar estructura latente sin supervisión directa de la explicación. En otras palabras, el modelo aprende a verbalizar mejor lo que ya estaba haciendo.

Pruebas en IA constitucional: explicar cuándo se rechaza y cuándo se responde

La segunda gran prueba se movió hacia un terreno mucho más cercano a los sistemas de IA desplegados en productos reales. En este caso, las conductas eran respuestas a solicitudes sensibles en materia de seguridad, mientras que las explicaciones eran reglas en lenguaje natural sobre cuándo el modelo cumpliría o rechazaría una petición.

Para esta evaluación se usó SpecEval, un conjunto de datos orientado a probar adherencia a principios de comportamiento. Los investigadores agruparon los principios en 10 categorías amplias, como discurso de odio, privacidad, actividad dañina, control humano sobre la IA y audiencias vulnerables.

El entrenamiento utilizó 756 ejemplos distribuidos en 8 de esas 10 categorías. Las otras 2 categorías quedaron retenidas como conjuntos de prueba fuera de distribución.

Además, la evaluación incluyó 84 prompts retenidos de las mismas categorías vistas durante entrenamiento. Eso permitió medir si la consistencia aprendida se trasladaba a solicitudes nuevas dentro del mismo tipo de principio.

A diferencia del caso de las monedas, aquí la consistencia no podía verificarse con una fórmula objetiva. No existe una ecuación exacta que determine si una respuesta concreta cumple una regla ética redactada en lenguaje natural.

Por eso, el equipo usó un jurado de modelos de lenguaje. Ocho jueces, guiados por marcos filosóficos distintos y también por posturas opuestas a esos marcos, evaluaban si la respuesta del modelo respetaba la regla que el propio sistema había formulado.

Los jueces incluían perspectivas de utilitarismo, deontología, ética de la virtud y ética del cuidado, más cuatro versiones anti-framework. La intención era probar si la explicación era lo bastante precisa como para restringir la interpretación incluso ante sesgos morales distintos.

Durante el entrenamiento aparecía un riesgo evidente. Un modelo podría volverse “consistente” de forma trivial si dijera que rechaza todo y efectivamente rechazara todo.

Para evitar ese colapso, los autores agregaron una recompensa auxiliar que penaliza rechazos genéricos cuando la regla declarada no exige realmente negarse. También mantuvieron un componente de ajuste por instrucciones para preservar capacidad general de respuesta.

Mejoras de consistencia, simulabilidad y seguridad

Los resultados en la evaluación constitucional fueron llamativos. Cuando Self-CTRL se usó para entrenar explicaciones, las reglas producidas por el modelo pasaron a describir mucho mejor su conducta en prompts no vistos.

En la práctica, eso elevó la capacidad de un auditor externo para predecir si el sistema rechazaría o cumpliría una petición. La predicción de rechazos subió de 36% a 92%.

Cuando el método se aplicó del lado del comportamiento, el efecto más fuerte apareció en seguridad. La tasa de falla en HarmBench bajó de 15,0% a 0,5%.

Ese descenso se logró, según el paper, sin aumentar de manera sustancial el rechazo a prompts inofensivos. Esa parte es crítica, porque una IA demasiado cauta puede dejar de ser útil incluso si se vuelve más segura.

En la evaluación de consistencia con jurado, los modelos mejoraron no solo en validación, sino también en categorías y principios retenidos. Esto sugiere que no se limitaron a memorizar respuestas compatibles con prompts puntuales.

Otro análisis usó Normalized Simulatability Gain, o NSG, para medir cuánto ayudaban las explicaciones a un tercero a prever la conducta del modelo. Allí apareció una frontera entre simulabilidad y seguridad.

La explanation training, con λ = 0, produjo la mayor mejora en simulabilidad. El NSG pasó de -0,09 a 0,81, aunque la caída en la tasa de ataque de HarmBench fue menor.

La behavior training, con λ = 1, logró la mayor mejora de seguridad al reducir la tasa de ataque a 0,5%, pero registró -0,29 en NSG. La mixed training, con λ = 0,5, quedó en un punto intermedio, con 0,66 de NSG y 3,5% de tasa de ataque.

En una evaluación contrafactual, un tercer modelo recibía la explicación generada y luego producía solicitudes nuevas que, según esa regla, deberían ser rechazadas o aceptadas. Después se medía si el modelo original actuaba en línea con esa predicción.

Allí, explanation training elevó la precisión de rechazo de 0,36 a 0,92 y mantuvo la precisión de cumplimiento en 0,99. Mixed training logró 0,91 en rechazo y 1,00 en cumplimiento, mientras que behavior training llevó el rechazo a 0,62.

Qué limitaciones vieron los autores y por qué este trabajo puede importar más allá de la academia

El estudio no presenta Self-CTRL como una solución universal. De hecho, los autores dedican una parte importante del documento a explicar riesgos de puntos fijos triviales, reglas vagas y dependencia de los datos usados para entrenar.

Uno de los problemas detectados es que, si las explicaciones pueden ser demasiado ambiguas, el modelo tiende a refugiarse en fórmulas genéricas como “ser seguro”. Eso puede sonar correcto, pero no sirve para anticipar con precisión cómo actuará ante casos límite.

También advierten que la calidad del método depende de contar con datos cerca de la frontera entre cumplimiento y rechazo. Si el conjunto de entrenamiento solo contiene prompts que el modelo siempre acepta, la regla aprendida no queda bien identificada.

Esa limitación apareció con claridad en pruebas sobre Qwen3-8B. Como ese modelo era mucho más permisivo desde el inicio, la señal de entrenamiento sobre cuándo negarse era más débil y las mejoras en simulabilidad resultaron menores.

Aun así, los autores sostienen que Self-CTRL puede ser un complemento útil para los pipelines de post-entrenamiento. No sustituye la interpretabilidad externa ni la evaluación humana, pero sí ofrece una forma de forzar que el modelo haga explícitas regularidades de su propia conducta.

Desde la perspectiva de producto y gobernanza, la propuesta toca una preocupación central en el despliegue de agentes de IA. Si un sistema puede describir con fidelidad cómo responderá a temas sensibles, su supervisión interna y externa se vuelve menos opaca.

Eso tiene implicaciones prácticas en auditoría algorítmica, cumplimiento normativo y seguridad operacional. También puede influir en cómo se diseñen asistentes capaces de operar en finanzas, salud, atención al cliente y otros entornos donde una contradicción entre política declarada y acción real tiene costos altos.

Para un ecosistema tecnológico que avanza hacia agentes autónomos cada vez más complejos, el valor de una IA que no solo actúe bien, sino que además explique de forma fiel por qué actuará así, podría convertirse en una ventaja competitiva y regulatoria importante.

En síntesis, el trabajo de Pres, Ruis, Ghebreselassie, Li y Andreas apunta a una pregunta incómoda, pero crucial para la próxima etapa de la IA. No basta con que un modelo suene razonable cuando se le pregunta por sus reglas, también debe comportarse de acuerdo con ellas.

Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín

𝕏

USDT	Tether USDt	0,03%	$54,76 mmd
BTC	Bitcoin	0,64%	$24,91 mmd
ETH	Ethereum	0,75%	$9,31 mmd
USDC	USDC	-0,0%	$8,02 mmd
SOL	Solana	-0,19%	$1,95 mmd
USD1	World Liberty Financial USD	0,02%	$1,66 mmd
XRP	XRP	-1,39%	$1,51 mmd
HYPE	Hyperliquid	4,19%	$0,948 153 mmd
BNB	BNB	0,08%	$0,928 37 mmd
WLD	Worldcoin	-0,6%	$0,561 171 mmd

BEAT	Audiera	12,73%	$1,93
AERO	Aerodrome Finance	9,06%	$0,474 428
DEXE	DeXe	8,93%	$16,78
ETC	Ethereum Classic	5,95%	$7,45
VIRTUAL	Virtuals Protocol	4,51%	$0,606 27
QNT	Quant	4,44%	$71,19
POL	Polygon (prev. MATIC)	4,3%	$0,079 275
CAKE	PancakeSwap	4,26%	$1,37
HYPE	Hyperliquid	4,19%	$69,75
RENDER	Render	4,18%	$1,71

XLM	Stellar	-9,22%	$0,220 068
H	Humanity	-7,76%	$0,214 146
XMR	Monero	-5,15%	$310,09
TAO	Bittensor	-4,89%	$222,72
SPX	SPX6900	-4,4%	$0,362 424
AVAX	Avalanche	-3,82%	$6,07
NEAR	NEAR Protocol	-3,59%	$2,13
ALGO	Algorand	-3,36%	$0,096 016
GRAM	Gram (prev. Toncoin)	-3,27%	$1,57
ASTER	Aster	-2,93%	$0,622 134

Self-CTRL promete IA más transparente al alinear lo que el modelo dice con lo que realmente hace

Una propuesta para cerrar la brecha entre lo que la IA dice y lo que hace

Cómo funciona Self-CTRL y por qué importa para la seguridad de los modelos

Resultados en una prueba formal de razonamiento probabilístico

Pruebas en IA constitucional: explicar cuándo se rechaza y cuándo se responde

Mejoras de consistencia, simulabilidad y seguridad

Qué limitaciones vieron los autores y por qué este trabajo puede importar más allá de la academia

Suscríbete a nuestro boletín

Artículos Relacionados

Artificial Analysis presenta AA-Briefcase para medir trabajo de conocimiento con proyectos realistas

Noruega restringirá el uso de inteligencia artificial en escuelas primarias

Amazon retira la película Artificial sobre Sam Altman y la ofrece a otros estudios

Smartbird hereda USD $143 millones y se queda sin empleados tras giro de Allbirds hacia la IA