La IA aún no puede reemplazar a humanos en auditorías de contratos inteligentes, afirma BlockSec

𝕏

Hace 3 segundos

Por Angel Di Matteo 𝕏 @shadowargel

Un nuevo estudio cuestiona las capacidades reales de la IA en seguridad Blockchain tras resultados mucho menos prometedores que los reportados inicialmente.

***

BlockSec replica pruebas de OpenAI y Paradigm con resultados mucho más bajos.
IA logra detectar vulnerabilidades, pero falla en explotarlas en escenarios reales.
Expertos concluyen que la auditoría automatizada total aún está lejos.

La promesa de auditorías completamente automatizadas mediante inteligencia artificial en el ecosistema blockchain enfrenta un nuevo revés. Investigadores de BlockSec han puesto en duda los resultados de EVMBench, un benchmark desarrollado por OpenAI y Paradigm que sugería avances significativos en la automatización de la seguridad de contratos inteligentes.

El estudio original había reportado que agentes de IA podían explotar hasta el 72% de las vulnerabilidades y detectar cerca del 45%, utilizando 120 ejemplos derivados de auditorías de Code4rena. Estas cifras alimentaron la narrativa de que la intervención humana podría volverse prescindible en este ámbito, reseña The Block.

Sin embargo, BlockSec decidió reevaluar estos hallazgos mediante un nuevo análisis titulado “Re-Evaluating EVMBench”, en el cual cuestiona tanto la metodología como las conclusiones del informe original.

Diferencias metodológicas y posibles sesgos

Uno de los principales puntos señalados por BlockSec es que las condiciones de prueba del benchmark original podrían haber inflado los resultados. Según el cofundador de la firma, Yajin Zhou, la industria reaccionó rápidamente a los datos iniciales, interpretándolos como evidencia de que la auditoría automatizada ya era viable.

No obstante, al replicar los experimentos bajo configuraciones más diversas, los resultados fueron radicalmente distintos. BlockSec amplió el número de configuraciones de agentes de 14 a 26, combinando distintos modelos y estructuras para evaluar si el rendimiento dependía del modelo o del entorno en que operaba.

Este enfoque buscaba aislar variables que en el estudio original podrían haber generado sesgos. Según los autores, limitar a los modelos a sus propias arquitecturas impedía determinar si el desempeño observado respondía a capacidades intrínsecas o a ventajas del entorno técnico.

Otro aspecto crítico fue la posible contaminación de datos. El benchmark original utilizaba vulnerabilidades ya conocidas, provenientes de 40 repositorios de Code4rena, lo que abre la posibilidad de que dichas fallas ya estuvieran presentes en los datos de entrenamiento de los modelos de IA.

pruebas en incidentes reales cambian el panorama

Para evitar este problema, BlockSec diseñó una prueba basada en 22 incidentes reales de seguridad ocurridos después de mediados de febrero de 2026. Esto garantizaba que los modelos evaluados no hubieran sido entrenados con esos datos.

Los resultados fueron contundentes. De las 110 combinaciones entre agentes e incidentes analizadas, ninguna logró ejecutar con éxito un exploit completo de principio a fin. Es decir, la tasa de éxito en explotación fue de 0%.

Este hallazgo contradice directamente el 72% reportado por EVMBench y sugiere que las capacidades actuales de la IA en escenarios reales son significativamente más limitadas de lo que se pensaba.

A pesar de ello, el desempeño en detección de vulnerabilidades se mantuvo relativamente consistente con el estudio original. Modelos como Claude Opus 4.6 lograron identificar 13 de 20 vulnerabilidades reales evaluadas.

Capacidades actuales y limitaciones estructurales

El análisis también reveló patrones claros en la dificultad de los casos evaluados. Seis incidentes fueron detectados por casi todos los agentes, con tasas entre 87,5% y 100%, lo que indica que la IA es efectiva frente a vulnerabilidades conocidas y bien documentadas.

Estos casos incluían patrones comunes como manipulaciones de reservas mediante funciones sell-hook o desbordamientos por multiplicación no verificada. Sin embargo, otros incidentes más complejos quedaron fuera del alcance de la mayoría de los modelos.

Cuatro vulnerabilidades no fueron detectadas por ningún agente, mientras que cinco solo fueron identificadas por uno de ocho sistemas evaluados. Esto evidencia que la IA aún carece de la profundidad analítica necesaria para enfrentar escenarios adversariales complejos.

Según Zhou, estos resultados desafían la idea de que la auditoría completamente automatizada esté cerca de convertirse en realidad. Aunque los agentes responden bien a patrones conocidos y contexto proporcionado por humanos, no pueden reemplazar el juicio experto.

colaboración humano-ia como camino viable

Lejos de descartar el valor de EVMBench, BlockSec reconoce su aporte como estándar de evaluación en la industria. No obstante, el estudio enfatiza que la narrativa dominante debe ajustarse a la realidad actual.

Zhou plantea que la discusión no debería centrarse en si la IA reemplazará a los humanos, sino en cómo ambos pueden colaborar de forma efectiva. En su visión, cada uno cumple funciones distintas pero complementarias.

La IA destaca en tareas de amplio alcance, como el escaneo sistemático de código, mientras que los humanos aportan conocimiento profundo del protocolo y capacidad de razonamiento adversarial.

Esta complementariedad sugiere un modelo híbrido como el camino más realista para el futuro de la seguridad blockchain. En lugar de eliminar la intervención humana, la IA podría potenciarla.

En un entorno donde los riesgos financieros asociados a vulnerabilidades pueden ser millonarios, confiar exclusivamente en sistemas automatizados sigue siendo una apuesta prematura.

Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín

𝕏

USDT	Tether USDt	-0,03%	$76,21 mmd
BTC	Bitcoin	0,06%	$38,58 mmd
ETH	Ethereum	-0,21%	$17,96 mmd
USDC	USDC	-0,01%	$9,46 mmd
SOL	Solana	0,59%	$3,12 mmd
USD1	World Liberty Financial USD	0,03%	$2,15 mmd
XRP	XRP	-0,72%	$1,91 mmd
BNB	BNB	-0,1%	$1,64 mmd
XAUt	Tether Gold	-3,39%	$1,02 mmd
TAO	Bittensor	2,93%	$0,774 191 mmd

KITE	Kite	11,12%	$0,220 675
PI	Pi	7,63%	$0,190 938
FET	Artificial Superintelligence Alliance	7,06%	$0,226 883
QNT	Quant	6,66%	$79,93
ETHFI	ether.fi	5,58%	$0,574 08
APT	Aptos	4,65%	$0,989 269
XTZ	Tezos	4,38%	$0,406 938
CFX	Conflux	3,7%	$0,064 785
SKY	Sky	3,47%	$0,073 791
BCH	Bitcoin Cash	3,2%	$470,35

RIVER	River	-11,53%	$21,55
M	MemeCore	-7,12%	$1,67
STABLE	Stable	-6,48%	$0,025 71
XAUt	Tether Gold	-3,39%	$4.504,92
PAXG	PAX Gold	-3,38%	$4.515,67
ZRO	LayerZero	-2,13%	$2,04
ZEC	Zcash	-1,84%	$235,07
SUN	Sun [New]	-1,75%	$0,017 62
WLD	Worldcoin	-1,69%	$0,328 541
XDC	XDC Network	-1,63%	$0,031 429

La IA aún no puede reemplazar a humanos en auditorías de contratos inteligentes, afirma BlockSec

Diferencias metodológicas y posibles sesgos

pruebas en incidentes reales cambian el panorama

Capacidades actuales y limitaciones estructurales

colaboración humano-ia como camino viable

Suscríbete a nuestro boletín

Artículos Relacionados

FET sube 1,67% en 24 horas: análisis técnico y fundamental clave

Colombia 5.0 llega a Medellín con foco en IA, videojuegos y transformación digital

Microsoft cede ante la presión y promete cambios radicales en Windows 11

OpenAI acelera su apuesta por un investigador IA autónomo para 2028