Un nuevo estudio cuestiona las capacidades reales de la IA en seguridad Blockchain tras resultados mucho menos prometedores que los reportados inicialmente.
***
- BlockSec replica pruebas de OpenAI y Paradigm con resultados mucho más bajos.
- IA logra detectar vulnerabilidades, pero falla en explotarlas en escenarios reales.
- Expertos concluyen que la auditoría automatizada total aún está lejos.
La promesa de auditorías completamente automatizadas mediante inteligencia artificial en el ecosistema blockchain enfrenta un nuevo revés. Investigadores de BlockSec han puesto en duda los resultados de EVMBench, un benchmark desarrollado por OpenAI y Paradigm que sugería avances significativos en la automatización de la seguridad de contratos inteligentes.
El estudio original había reportado que agentes de IA podían explotar hasta el 72% de las vulnerabilidades y detectar cerca del 45%, utilizando 120 ejemplos derivados de auditorías de Code4rena. Estas cifras alimentaron la narrativa de que la intervención humana podría volverse prescindible en este ámbito, reseña The Block.
Sin embargo, BlockSec decidió reevaluar estos hallazgos mediante un nuevo análisis titulado “Re-Evaluating EVMBench”, en el cual cuestiona tanto la metodología como las conclusiones del informe original.
Diferencias metodológicas y posibles sesgos
Uno de los principales puntos señalados por BlockSec es que las condiciones de prueba del benchmark original podrían haber inflado los resultados. Según el cofundador de la firma, Yajin Zhou, la industria reaccionó rápidamente a los datos iniciales, interpretándolos como evidencia de que la auditoría automatizada ya era viable.
No obstante, al replicar los experimentos bajo configuraciones más diversas, los resultados fueron radicalmente distintos. BlockSec amplió el número de configuraciones de agentes de 14 a 26, combinando distintos modelos y estructuras para evaluar si el rendimiento dependía del modelo o del entorno en que operaba.
Este enfoque buscaba aislar variables que en el estudio original podrían haber generado sesgos. Según los autores, limitar a los modelos a sus propias arquitecturas impedía determinar si el desempeño observado respondía a capacidades intrínsecas o a ventajas del entorno técnico.
Otro aspecto crítico fue la posible contaminación de datos. El benchmark original utilizaba vulnerabilidades ya conocidas, provenientes de 40 repositorios de Code4rena, lo que abre la posibilidad de que dichas fallas ya estuvieran presentes en los datos de entrenamiento de los modelos de IA.
pruebas en incidentes reales cambian el panorama
Para evitar este problema, BlockSec diseñó una prueba basada en 22 incidentes reales de seguridad ocurridos después de mediados de febrero de 2026. Esto garantizaba que los modelos evaluados no hubieran sido entrenados con esos datos.
Los resultados fueron contundentes. De las 110 combinaciones entre agentes e incidentes analizadas, ninguna logró ejecutar con éxito un exploit completo de principio a fin. Es decir, la tasa de éxito en explotación fue de 0%.
Este hallazgo contradice directamente el 72% reportado por EVMBench y sugiere que las capacidades actuales de la IA en escenarios reales son significativamente más limitadas de lo que se pensaba.
A pesar de ello, el desempeño en detección de vulnerabilidades se mantuvo relativamente consistente con el estudio original. Modelos como Claude Opus 4.6 lograron identificar 13 de 20 vulnerabilidades reales evaluadas.
Capacidades actuales y limitaciones estructurales
El análisis también reveló patrones claros en la dificultad de los casos evaluados. Seis incidentes fueron detectados por casi todos los agentes, con tasas entre 87,5% y 100%, lo que indica que la IA es efectiva frente a vulnerabilidades conocidas y bien documentadas.
Estos casos incluían patrones comunes como manipulaciones de reservas mediante funciones sell-hook o desbordamientos por multiplicación no verificada. Sin embargo, otros incidentes más complejos quedaron fuera del alcance de la mayoría de los modelos.
Cuatro vulnerabilidades no fueron detectadas por ningún agente, mientras que cinco solo fueron identificadas por uno de ocho sistemas evaluados. Esto evidencia que la IA aún carece de la profundidad analítica necesaria para enfrentar escenarios adversariales complejos.
Según Zhou, estos resultados desafían la idea de que la auditoría completamente automatizada esté cerca de convertirse en realidad. Aunque los agentes responden bien a patrones conocidos y contexto proporcionado por humanos, no pueden reemplazar el juicio experto.
colaboración humano-ia como camino viable
Lejos de descartar el valor de EVMBench, BlockSec reconoce su aporte como estándar de evaluación en la industria. No obstante, el estudio enfatiza que la narrativa dominante debe ajustarse a la realidad actual.
Zhou plantea que la discusión no debería centrarse en si la IA reemplazará a los humanos, sino en cómo ambos pueden colaborar de forma efectiva. En su visión, cada uno cumple funciones distintas pero complementarias.
La IA destaca en tareas de amplio alcance, como el escaneo sistemático de código, mientras que los humanos aportan conocimiento profundo del protocolo y capacidad de razonamiento adversarial.
Esta complementariedad sugiere un modelo híbrido como el camino más realista para el futuro de la seguridad blockchain. En lugar de eliminar la intervención humana, la IA podría potenciarla.
En un entorno donde los riesgos financieros asociados a vulnerabilidades pueden ser millonarios, confiar exclusivamente en sistemas automatizados sigue siendo una apuesta prematura.
Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.
Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
Análisis de mercado
FET sube 1,67% en 24 horas: análisis técnico y fundamental clave
Colombia
Colombia 5.0 llega a Medellín con foco en IA, videojuegos y transformación digital
IA
Microsoft cede ante la presión y promete cambios radicales en Windows 11
Empresas