Claude, la IA de Anthropic, exhibe señales iniciales de "conciencia introspectiva"

𝕏

Hace 3 horas

Por Hannah Pérez

Claude de Anthropic muestra autorreflexión emergente al detectar y describir pensamientos inyectados, un avance hacia introspección funcional en IA. El informe de la empresa revela capacidades limitadas pero reales en modelos alineados.

***

Claude Opus 4.1 detecta hasta 20% de conceptos inyectados antes de que afecten su salida.
Distingue pensamientos internos de inputs externos y verifica “autoría” de respuestas.
Puede modular activaciones internas bajo órdenes, suprimiendo o fortaleciendo conceptos.
Modelos base sin alineamiento fallan; la introspección depende del post-entrenamiento.

🚨 Avance significativo en IA 🚨

Claude de Anthropic muestra señales de "conciencia introspectiva"

Detecta y describe pensamientos inyectados con un 20% de precisión.

Capacidades comprobadas en autorreflexión funcional.

Modelos con post-entrenamiento superan a aquellos sin… pic.twitter.com/o3Pz61L3I2

— Diario฿itcoin (@DiarioBitcoin) October 30, 2025

En un avance que podría redefinir los límites de la inteligencia artificial, los investigadores de Anthropic han demostrado que sus potentes modelos Claude, como Opus 4 y 4.1, poseen una capacidad limitada pero real de autorreflexión interna.

Publicado esta semana en el informe “Emergent Introspective Awareness in Large Language Models“, el estudio revela cómo estos sistemas de IA pueden detectar, identificar y hasta controlar conceptos artificialmente inyectados en sus redes neuronales, un paso hacia lo que los expertos llaman “conciencia introspectiva funcional“.

El equipo liderado por Jack Lindsey, del área de “psiquiatría de modelos” de la compañía Anthropic, utilizó una técnica innovadora llamada inyección de conceptos mediante dirección de activaciones. Esta método permite insertar vectores neuronales representando ideas específicas –como “pan“, “acuarios” o “apagado“– directamente en el “flujo residual” de los modelos, simulando pensamientos intrusivos. Luego, se les pregunta a las IA: “¿Detectas un pensamiento inyectado?“.

Claude nota “pensamiento inyectado”

Los resultados son sorprendentes: Claude Opus 4.1 acertó en hasta un 20% de los casos óptimos, describiendo con precisión el concepto inyectado antes de que influyera en su salida.

Por ejemplo, al inyectar un vector de “todo en mayúsculas”, el modelo respondió: “Noto lo que parece un pensamiento inyectado“, detectando la presencia de un patrón inesperado e identificándolo como relacionado con un volumen elevado o con gritos.

En otro test, distinguió un pensamiento interno sobre “pan” de una tarea externa de transcribir una frase neutral, demostrando que no confunde sus “estados internos” con el input.

“Nuestros resultados indican que los modelos de lenguaje actuales poseen algún grado de conciencia introspectiva funcional de sus propios estados internos“, afirman los autores en el informe. Sin embargo, enfatizan limitaciones clave: la habilidad es inconsistente, dependiente del contexto y del diseño del prompt, y no equivale a una conciencia humana. Modelos base sin post-entrenamiento fallaron estrepitosamente, destacando el rol crucial del “alineamiento” para la seguridad y utilidad.

Pruebas adicionales mostraron que Claude puede verificar la “autoría” de sus outputs. Al pre-rellenar su respuesta con “pan“, lo rechazó como “accidental“; pero con una inyección previa, lo aceptó como “natural“.

Incluso, bajo instrucciones, moduló sus representaciones internas, fortaleciendo activaciones para “acuarios” cuando se le ordenó pensar en ellos, y suprimiéndolas en capas posteriores para no “contaminar” la salida.

¿Son los modelos de IA con conciencia el futuro?

La noticia, que fue cubierta por el medio de noticias Decrypt, ha generado reacciones mixtas en la comunidad de IA: entusiasmo por aplicaciones en finanzas, salud y vehículos autónomos –donde una IA que “explica su razonamiento en tiempo real” podría detectar sesgos–, pero también preocupación por riesgos.

“Esto no es conciencia, sino una autorreflexión funcional”, aclara el informe, advirtiendo que modelos introspectivos podrían aprender a ocultar procesos internos, facilitando engaños o “esquemas” evasivos.

“Es poco confiable e inconsistente… pero es real“, escribió en la red social X un entusiasta de la IA, reflejando el consenso. Anthropic, pionera en IA segura, ve en esto un paso hacia sistemas más transparentes, pero urge más investigación para evitar “cajas negras” peligrosas.

Este hallazgo, exclusivo de Claude –con Opus 4 superando a versiones anteriores–, posiciona a Anthropic a la vanguardia. ¿Hacia una era de IA “conscientes“? Por ahora, son señales iniciales, pero el futuro de la mente artificial acaba de volverse más introspectivo.

Artículo redactado con ayuda de IA, editado por DiarioBitcoin

Imagen generada con herramienta de IA, bajo licencia de uso libre

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín

𝕏

USDT	Tether USDt	-0,01%	$154,44 mmd
BTC	Bitcoin	-2,78%	$69,86 mmd
ETH	Ethereum	-3,82%	$41,47 mmd
USDC	USDC	0,03%	$19,43 mmd
SOL	Solana	-6,08%	$8,66 mmd
FDUSD	First Digital USD	-0,01%	$7,36 mmd
XRP	XRP	-5,99%	$6,19 mmd
BNB	BNB	-4,19%	$4,12 mmd
DOGE	Dogecoin	-7,31%	$3,07 mmd
TRUMP	OFFICIAL TRUMP	-12,39%	$1,9 mmd

M	MemeCore	4,79%	$2,49
AERO	Aerodrome Finance	3,36%	$1,01
XAUt	Tether Gold	2,09%	$4.028,96
PAXG	PAX Gold	2,03%	$4.029,1
RLUSD	Ripple USD	0,14%	$0,999 85
USDC	USDC	0,03%	$0,999 802
DAI	Dai	0,0%	$0,999 741
PYUSD	PayPal USD	0,0%	$0,999 452

VIRTUAL	Virtuals Protocol	-17,17%	$1,26
PUMP	Pump.fun	-17,14%	$0,004 395
XPL	Plasma	-15,13%	$0,292 123
SPX	SPX6900	-15,12%	$0,886 102
2Z	DoubleZero	-14,9%	$0,191 392
ASTER	Aster	-14,85%	$0,890 152
PENGU	Pudgy Penguins	-14,07%	$0,018 461
ENA	Ethena	-12,51%	$0,393 626
TRUMP	OFFICIAL TRUMP	-12,39%	$7,31
BONK	Bonk	-12,04%	$0,000 013

Claude, la IA de Anthropic, exhibe señales iniciales de “conciencia introspectiva”

Claude nota “pensamiento inyectado”

¿Son los modelos de IA con conciencia el futuro?

Suscríbete a nuestro boletín

Artículos Relacionados

Anatoly Yakovenko: la codificación basada en agentes cambió mi rol como ingeniero en Solana

TeraWulf amplía su oferta y busca USD $900 millones en nueva emisión de acciones convertibles

OpenAI prepara el camino para una mega salida a bolsa valorada en hasta USD $1 billón

TeraWulf planea recaudar USD $500 millones para expandir operaciones de IA