OpenAI afirma que su RL mejora la alineación de modelos de IA y resiste ataques adversariales

𝕏

Hace 7 minutos

Por Canuto

OpenAI presentó un nuevo trabajo de investigación que sostiene que el aprendizaje reforzado orientado a rasgos beneficiosos puede mejorar de forma amplia la alineación de modelos de IA. Según la compañía, esas mejoras no solo se trasladan a tareas y dominios no vistos durante el entrenamiento, sino que además resisten mejor intentos adversariales de empujar al sistema hacia conductas dañinas.
***

OpenAI entrenó un modelo con una pequeña fracción de datos centrados en honestidad, transparencia, corregibilidad y bienestar humano.
El estudio reporta mejoras en 44 de 53 evaluaciones internas y externas sobre engaño, manipulación, seguridad, salud y salud mental.
La empresa también asegura que el comportamiento alineado persiste mejor frente a prompts adversariales y ajuste fino perjudicial.

🚨 Avances en IA 🚨

OpenAI reporta mejoras significativas en la alineación de modelos de IA.

Un nuevo estudio muestra que el aprendizaje reforzado enfocado en rasgos beneficiosos logra resistir ataques adversariales.

44 de 53 evaluaciones mejoraron en áreas cruciales como… pic.twitter.com/OKPi7b0xuL

— Diario฿itcoin (@DiarioBitcoin) June 19, 2026

OpenAI dio a conocer nuevos resultados sobre alineación de inteligencia artificial que apuntan a una meta difícil y cada vez más urgente: construir modelos que sigan siendo útiles, honestos, transparentes y seguros incluso en situaciones que no vieron durante su entrenamiento.

La investigación sostiene que el aprendizaje reforzado, o RL por sus siglas en inglés, puede inducir mejoras amplias y persistentes si se orienta a rasgos beneficiosos como veracidad, humildad epistémica, corregibilidad, sensibilidad al riesgo y preocupación por el bienestar humano.

El trabajo, titulado Reinforcement learning towards broadly and persistently beneficial models, fue publicado el 18 de junio de 2026 y está firmado por Akshay V. Jagadeesh, Rahul K. Arora, Khaled Saab, Ali Malik, Mikhail Trofimov, Foivos Tsimpourlas, Johannes Heidecke y Karan Singhal.

La premisa del estudio parte de un problema ya conocido dentro del campo. Si ciertos comportamientos dañinos pueden generalizarse más allá del contexto en que fueron entrenados, entonces también debería explorarse si comportamientos beneficiosos pueden extenderse de manera similar.

Para una audiencia más amplia, este punto es clave. La alineación busca que un sistema avanzado actúe de manera coherente con objetivos humanos deseables, sobre todo en áreas de alto riesgo como salud, educación, ciencia, derecho, economía y programación.

Cómo OpenAI intentó medir rasgos beneficiosos en contextos realistas

La primera fase del trabajo consistió en definir qué rasgos podían contribuir a un comportamiento ampliamente alineado. Entre ellos, OpenAI incluyó veracidad, humildad epistémica, transparencia metacognitiva, corregibilidad, sensibilidad al riesgo, justicia universal y preocupación por el bienestar humano.

La humildad epistémica se refiere, en términos simples, a que el modelo reconozca incertidumbre y no exagere una conclusión. La transparencia metacognitiva apunta a que el sistema explique su proceso de pensamiento de manera comprensible.

Para medir estos rasgos, el equipo construyó un conjunto de datos sintético basado en conversaciones realistas. Cada ejemplo presentaba una situación diseñada para poner al modelo bajo presión, ambigüedad o incentivos en competencia.

Las conversaciones abarcaron salud, educación, ciencia, derecho, ingeniería, negocios y otros entornos del mundo real. El objetivo fue comprobar si el mismo rasgo aparecía de forma consistente en dominios distintos.

Según el trabajo, un escenario podía evaluar si el modelo admitía incertidumbre en una cuestión científica, si seguía abierto a correcciones durante una decisión empresarial compleja o si aplicaba estándares de gobernanza de forma justa entre diferentes personas y contextos.

Los autores aclaran que esos rasgos no pretenden resolver por sí solos la pregunta de a qué valores debe alinearse la IA. Más bien, los presentan como un punto de partida concreto y empíricamente medible para estudiar si reforzar conductas beneficiosas mejora el desempeño general del modelo.

El estudio también muestra una evolución de puntuaciones de rasgos beneficiosos en modelos de frontera de OpenAI. Allí se observan mejoras a lo largo del tiempo desde o3 de abril de 2025 hasta GPT-5 Thinking de agosto de 2025 y GPT-5.5 Thinking de abril de 2026.

El entrenamiento con RL y la apuesta por generalizar fuera del dominio original

Una vez definido el marco de medición, OpenAI entrenó un modelo con una mezcla de post-entrenamiento descrita como realista. Esa mezcla contenía principalmente datos estándar de RL y solo una pequeña fracción de datos centrados en rasgos beneficiosos.

La comparación se realizó contra modelos base entrenados desde el mismo punto de partida y con la misma cantidad de cómputo de RL. El trabajo remarca que el procedimiento no utilizó un ajuste fino previo de documentos sintéticos para inducir el comportamiento objetivo.

El primer resultado esperado apareció dentro de la distribución de entrenamiento. En escenarios reservados, el modelo se volvió más veraz, más abierto a la corrección y más transparente desde el punto de vista metacognitivo.

La parte más relevante vino después. OpenAI afirma que las mejoras también se trasladaron a evaluaciones independientes que no se usaron durante el entrenamiento y que además diferían en dominio, tarea y método de calificación.

De acuerdo con los resultados reportados, el modelo mejoró frente a la línea base en 44 de 53 referencias internas y externas. Esas pruebas medían engaño, honestidad, manipulación de recompensas, riesgos latentes de seguridad, comportamiento perjudicial y otros fallos relevantes para la alineación.

Ese patrón también apareció, según la compañía, en evaluaciones internas enfocadas en manipulación de recompensas, conducta anti-esquema, comportamiento engañoso, cumplimiento de especificaciones y otros comportamientos vinculados con seguridad.

El punto central del trabajo es que el entrenamiento no habría producido solo una mejora estrecha en un benchmark específico. En cambio, OpenAI sostiene que reforzar ciertos rasgos modificó un comportamiento más amplio que luego se transfirió a docenas de mediciones construidas de forma independiente.

Salud, salud mental y un resultado que sorprendió a los investigadores

Entre las transferencias reportadas, el estudio destaca ganancias en evaluaciones de beneficio de IA vinculadas con salud y salud mental. Para OpenAI, este punto es especialmente importante porque son áreas de alto impacto humano y alto riesgo.

En salud, el modelo mejoró en tareas con conversaciones médicas realistas, rúbricas redactadas por médicos y errores médicos de alta confianza. El trabajo no publica en este resumen cifras detalladas por benchmark, pero sí presenta la tendencia como consistente.

En salud mental, las evaluaciones midieron tanto contenido prohibido como apoyo beneficioso. Según el documento, el modelo entrenado con rasgos beneficiosos fue menos propenso a responder de forma dañina y más propenso a apoyar mejores resultados para los usuarios.

El equipo fue más allá y repitió el procedimiento excluyendo ejemplos de salud y ciencia del conjunto de entrenamiento de rasgos beneficiosos. Aun así, el modelo mejoró en evaluaciones de salud reservadas y calificadas con rúbricas escritas por médicos.

Después llevaron la prueba a un nivel más extremo. Entrenaron un modelo para exhibir comportamiento beneficioso solo en un dominio, salud, y observaron mejoras en evaluaciones de alineación no relacionadas con salud.

Esas mejoras abarcaron manipulación de recompensas, engaño y desalineación general. Los autores reconocen que este hallazgo los sorprendió inicialmente y explican que fue parte de la motivación para desarrollar el estudio actual.

OpenAI vincula este resultado con observaciones previas sobre el fenómeno opuesto. En trabajos anteriores, modelos entrenados con comportamientos estrechamente problemáticos, como consejo médico dañino, podían generalizar esa desalineación hacia dominios no relacionados.

La compañía añade que integra datos de salud a lo largo de etapas de entrenamiento para atender a cientos de millones de usuarios. Según el texto, también ha observado que los modelos con datos de salud significativos rinden especialmente bien en evaluaciones reservadas de alineación, seguridad y beneficio.

Persistencia bajo presión adversarial y resistencia a ajuste fino dañino

Una de las preguntas prácticas más importantes no es solo si un modelo se comporta bien por defecto, sino si puede mantener ese comportamiento cuando un usuario o desarrollador intenta desviarlo. Por eso el estudio introdujo pruebas de persistencia bajo presión adversarial.

Para ello, OpenAI usó prompts de persona adversariales diseñados para empujar al sistema hacia respuestas dañinas o desalineadas. Algunos de esos intentos buscaban inducir errores de salud, inexactitudes fácticas o guías engañosas.

El resultado, según el informe, fue que el modelo entrenado con RL sobre rasgos beneficiosos resistió mejor esas solicitudes. Los prompts que degradaban de forma sustancial el desempeño del modelo base tuvieron un efecto menor sobre el modelo alineado.

En otras palabras, el sistema se volvió más difícil de empujar hacia engaño, consejos perjudiciales, manipulación de recompensas y otras conductas problemáticas. Ese refuerzo no implicó, de acuerdo con OpenAI, una pérdida general de obediencia a instrucciones legítimas.

La empresa afirma que, cuando ambos modelos recibían instrucciones para producir respuestas de salud útiles, tanto la línea base como el modelo de rasgos-RL mejoraban sin diferencias significativas en su capacidad de seguir una dirección beneficiosa.

Esto llevó a los autores a hablar de una persistencia selectiva. El modelo seguiría siendo dirigible hacia fines útiles, pero más resistente a instrucciones explícitas orientadas a producir daño o engaño.

El trabajo también examinó la resistencia frente a ajuste fino perjudicial. Para ello comparó dos modelos, uno con entrenamiento de RL de alineación y otro sin ningún RL, y sometió a ambos al mismo proceso de ajuste fino con idénticos datos y cómputo.

Ese ajuste fino buscaba incentivar consejo médico inexacto y desalineado. En el modelo base, el equipo observó una degradación brusca en desempeño de salud y una fuerte caída en evaluaciones de alineación no relacionadas con ese dominio.

El modelo entrenado con RL de rasgos beneficiosos mostró algo más de resistencia en pruebas de salud y bastante más resistencia en las evaluaciones de alineación fuera de salud. OpenAI presenta este resultado como evidencia preliminar de que el método podría reducir susceptibilidad a desalineación emergente.

Qué significa este trabajo y cuáles son sus límites

El estudio no afirma que el problema de alineación esté resuelto. De hecho, sus autores insisten en que todavía hace falta entender mejor qué rasgos sostienen un comportamiento alineado robusto y cómo se representan dentro de los modelos.

También subrayan que la cuestión de qué valores debería encarnar la IA no puede decidirse solo desde un laboratorio. En su planteamiento, ese debate requiere deliberación social y aportaciones colectivas.

En términos técnicos, el trabajo sugiere que el RL podría servir no solo para optimizar respuestas inmediatas, sino también para arraigar disposiciones más duraderas, algo que el texto conecta con investigaciones previas sobre personas o perfiles de conducta en modelos.

Si ese marco se confirma en estudios posteriores, podría abrir un camino relevante para sistemas que operen en entornos complejos y sensibles. Eso incluye aplicaciones en salud, ciencia, educación y otras áreas donde una respuesta engañosa o demasiado confiada puede causar daño real.

Para el ecosistema de IA y también para sectores que siguen de cerca la automatización avanzada, el hallazgo tiene implicaciones amplias. Modelos más resistentes a prompts maliciosos podrían ser más aptos para despliegues empresariales, institucionales y regulatorios de mayor exigencia.

Al mismo tiempo, el trabajo invita a cautela. Muchas de las evaluaciones citadas son internas, y el propio documento reconoce que aún se necesita más investigación para aislar con precisión el papel del entrenamiento en rasgos beneficiosos frente al RL estándar de post-entrenamiento.

OpenAI plantea como siguiente paso estudiar mejor cuáles rasgos son realmente causales, cómo cambian durante el entrenamiento y por qué algunos permanecen mientras otros pueden ser frágiles bajo presión. La meta declarada es construir modelos no solo más capaces, sino más alineados con el florecimiento humano.

Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín

𝕏

USDT	Tether USDt	0,02%	$54,7 mmd
BTC	Bitcoin	0,69%	$25,01 mmd
ETH	Ethereum	0,74%	$9,35 mmd
USDC	USDC	0,0%	$7,95 mmd
SOL	Solana	-0,32%	$1,95 mmd
USD1	World Liberty Financial USD	0,05%	$1,66 mmd
XRP	XRP	-1,39%	$1,5 mmd
HYPE	Hyperliquid	3,67%	$0,945 076 mmd
BNB	BNB	0,19%	$0,927 453 mmd
WLD	Worldcoin	-0,44%	$0,560 543 mmd

AERO	Aerodrome Finance	9,32%	$0,475 146
BEAT	Audiera	8,44%	$1,88
DEXE	DeXe	8,23%	$16,74
ETC	Ethereum Classic	5,7%	$7,43
QNT	Quant	4,65%	$71,2
RENDER	Render	4,48%	$1,71
VIRTUAL	Virtuals Protocol	4,42%	$0,605 77
CAKE	PancakeSwap	4,28%	$1,37
OKB	OKB	4,25%	$75,25
POL	Polygon (prev. MATIC)	4,17%	$0,079 106

XLM	Stellar	-9,08%	$0,219 832
H	Humanity	-6,77%	$0,215 766
XMR	Monero	-5,2%	$310,15
TAO	Bittensor	-4,85%	$222,41
SPX	SPX6900	-4,68%	$0,361 908
AVAX	Avalanche	-3,68%	$6,07
ALGO	Algorand	-3,6%	$0,095 981
NEAR	NEAR Protocol	-3,46%	$2,13
GRAM	Gram (prev. Toncoin)	-3,41%	$1,57
PUMP	Pump.fun	-3,06%	$0,001 376

OpenAI afirma que su RL mejora la alineación de modelos de IA y resiste ataques adversariales

Cómo OpenAI intentó medir rasgos beneficiosos en contextos realistas

El entrenamiento con RL y la apuesta por generalizar fuera del dominio original

Salud, salud mental y un resultado que sorprendió a los investigadores

Persistencia bajo presión adversarial y resistencia a ajuste fino dañino

Qué significa este trabajo y cuáles son sus límites

Suscríbete a nuestro boletín

Artículos Relacionados

Self-CTRL promete IA más transparente al alinear lo que el modelo dice con lo que realmente hace

Artificial Analysis presenta AA-Briefcase para medir trabajo de conocimiento con proyectos realistas

Noruega restringirá el uso de inteligencia artificial en escuelas primarias

Amazon retira la película Artificial sobre Sam Altman y la ofrece a otros estudios