EvoSkills: IA supera habilidades humanas al crear skills para agentes LLM

𝕏

Hace 22 minutos

Por Canuto

Un nuevo trabajo académico plantea que los agentes basados en grandes modelos de lenguaje no solo pueden usar herramientas, sino también crear y refinar por sí mismos “skills” complejas. La propuesta, llamada EvoSkills, reporta mejoras contundentes frente a habilidades curadas por humanos y muestra transferencia entre múltiples familias de modelos.
***

EvoSkills alcanzó una tasa de éxito de 71,1% en SkillsBench, frente a 53,5% de las skills curadas por humanos y 30,6% sin skills.
El sistema combina un generador de skills y un verificador sustituto que coevolucionan sin acceder al contenido de las pruebas reales.
Las skills creadas con Claude Opus 4.6 también mejoraron el desempeño de otros seis modelos, con ganancias de entre 35 y 45 puntos porcentuales.

🚨 La IA se transforma: EvoSkills revoluciona la creación de "skills" complejas.

Investigadores demuestran que agentes LLM pueden generar y perfeccionar habilidades de forma autónoma.

EvoSkills supera habilidades humanas en un 17.6% en pruebas.

Este avance sugiere una brecha… pic.twitter.com/eBkI5va38P

— Diario฿itcoin (@DiarioBitcoin) April 5, 2026

La carrera por construir agentes de inteligencia artificial más útiles está entrando en una nueva etapa. Ya no se trata solo de que un modelo invoque herramientas o APIs aisladas, sino de que sea capaz de organizar procedimientos completos, reutilizables y adaptados a tareas profesionales complejas.

En ese contexto, un grupo de investigadores de University of Illinois Chicago, MBZUAI, McGill University, Columbia University, Zhejiang University y University of British Columbia presentó EvoSkills: Self-Evolving Agent Skills via Co-Evolutionary Verification. El trabajo, firmado por Hanrong Zhang, Shicheng Fan, Henry Peng Zou, Yankai Chen y otros autores, propone un marco para que los propios agentes generen, prueben y refinen sus skills de forma autónoma.

La idea central parte de una distinción importante. Una herramienta suele ser una función simple y autocontenida. Una skill, en cambio, es un paquete estructurado que puede incluir instrucciones de flujo de trabajo, scripts ejecutables y materiales de referencia repartidos en múltiples archivos.

Ese salto es relevante porque muchas tareas profesionales abiertas, como reparación de software, análisis científico o coordinación de pipelines empresariales, no se resuelven con un solo llamado a una API. Requieren varios pasos, manejo de errores, validación intermedia y decisiones de más largo plazo.

Según explican los autores, las skills disponibles hoy dependen en gran medida de redacción humana. Eso no solo vuelve costoso el proceso, también abre la puerta a una desalineación entre cómo piensan los expertos humanos y cómo razonan realmente los agentes basados en modelos de lenguaje.

Esa hipótesis no es menor. El estudio sostiene que ciertas skills curadas por humanos producen mejoras desiguales según el dominio y que, en algunos casos, incluso pueden empeorar el desempeño del agente. Para los investigadores, esto sugiere una brecha cognitiva entre diseño humano y ejecución máquina.

Qué propone EvoSkills y por qué importa

EvoSkills intenta resolver dos problemas a la vez. El primero es que generar en una sola pasada una skill compleja de múltiples archivos resulta poco confiable. El segundo es que, en escenarios reales, el agente no suele tener acceso al contenido exacto de las pruebas que determinan si una tarea fue resuelta correctamente.

Para enfrentarlo, el marco introduce dos componentes que coevolucionan. El Skill Generator produce y refina paquetes de skills en iteraciones sucesivas. El Surrogate Verifier, por su parte, genera pruebas sustitutas y retroalimentación estructurada sin ver las pruebas reales ocultas.

La dinámica funciona como un ciclo de generar, verificar y corregir. El generador crea una skill candidata y la ejecuta. Después, el verificador sustituto analiza los resultados, sintetiza casos de prueba y devuelve diagnósticos accionables si encuentra fallas.

Si esa verificación sustituta se supera, el sistema pasa entonces a una prueba oráculo de verdad de terreno ejecutada en un entorno limpio. Esa prueba solo devuelve una señal opaca de éxito o fracaso, sin revelar el contenido exacto de los tests, para evitar sobreajuste.

Cuando la prueba sustituta pasa pero la prueba oráculo falla, el verificador debe endurecer sus chequeos en la siguiente ronda. De esa forma, no solo evoluciona la skill, también evoluciona el sistema que intenta validarla.

Los autores formalizan este proceso como un problema de decisión parcialmente observable. En términos simples, el agente actúa con información incompleta sobre el entorno y sobre los criterios exactos de éxito, por lo que necesita una señal de retroalimentación intermedia que aproxime razonablemente la evaluación final.

Resultados: supera a líneas base y a skills humanas

La evaluación se realizó sobre SkillsBench, un benchmark con 87 tareas y verificadores deterministas distribuidos en alrededor de 20 dominios profesionales. La métrica principal fue la tasa de aprobación, es decir, el porcentaje de tareas que pasan completamente sus pruebas.

En la comparación principal con Claude Opus 4.6 y Claude-Code, EvoSkills alcanzó 71,1% de pass rate. Esa cifra supera por 40,5 puntos porcentuales al baseline sin skills, que quedó en 30,6%, y por 17,6 puntos porcentuales a las skills curadas por humanos, que marcaron 53,5%.

También aventajó a cinco líneas base adicionales. La generación autónoma simple de skills llegó a 32,0%. Una variante guiada por cadena de pensamiento obtuvo 30,7%. El skill-creator de Anthropic adaptado a un protocolo autónomo logró 34,1%.

El paper destaca que la mejora no parece venir del prompt de creación en sí, sino del bucle iterativo de verificación y refinamiento. De hecho, en la ronda 0, equivalente a una generación inicial sin verificación sustantiva, EvoSkills estaba prácticamente al nivel del baseline sin skills.

Luego la curva subió con rapidez. El trabajo reporta 44% en la ronda 2, 63% en la ronda 3 y 75% en la ronda 5. Según los autores, eso muestra que el esquema coevolutivo converge en pocas iteraciones, manteniendo costos prácticos.

En las pruebas de ablación, quitar el verificador sustituto redujo el desempeño desde 71,1% hasta 41,1%. Usar solo contexto de fondo sin evolución dejó el resultado en 48,6%. Para el equipo, esos datos respaldan la importancia del diagnóstico estructurado y del empaquetado reutilizable.

Transferencia entre modelos y evidencia de desalineación humano-máquina

Uno de los puntos más llamativos del estudio es la portabilidad. Las skills evolucionadas con Claude Opus 4.6 no solo funcionaron con ese modelo. También fueron transferidas a seis sistemas adicionales de cinco compañías distintas.

En GPT-5.2, las skills autogeneradas por el propio modelo lograron 69,8%, frente a 29,6% sin skills. Cuando GPT-5.2 usó skills transferidas desde Opus 4.6, alcanzó 65,0%, todavía 35,4 puntos porcentuales por encima de su baseline.

Claude Sonnet 4.5 pasó de 20,0% a 63,1%. Claude Haiku 4.5 subió de 10,4% a 54,5%. Qwen3 Coder avanzó de 8,4% a 50,8%. DeepSeek V3 mejoró de 13,0% a 48,8%. Mistral Large 3 pasó de 4,9% a 43,1%.

En lectura de los autores, esto sugiere que las skills aprendidas no son artefactos específicos de un solo modelo. Más bien codifican estructuras de tarea reutilizables, procedimientos y estrategias que pueden beneficiar a agentes distintos.

Al mismo tiempo, el trabajo detecta que la evolución ajustada a cada modelo todavía ofrece una ventaja. GPT-5.2 obtuvo mejores resultados con sus propias skills autogeneradas que con las transferidas desde Opus 4.6, aunque la diferencia fue moderada, de 4,8 puntos porcentuales.

Ese hallazgo tiene implicaciones directas para la industria de agentes de IA. Si las skills pueden evolucionar localmente y luego transferirse con ganancias sustantivas, se abre la puerta a bibliotecas de capacidades más robustas y menos dependientes del diseño manual.

Qué dominios mejoraron más y qué revela el caso científico

El análisis por dominios mostró que las skills autogeneradas superaron a las humanas en 9 de 11 áreas examinadas. Los mayores márgenes aparecieron en Finanzas y Ciberseguridad, aunque el trabajo también resalta resultados importantes en oficina, investigación, manufactura y software.

El caso de Ciencias Naturales es especialmente interesante. Allí, las skills curadas por humanos llegaron a degradar el rendimiento respecto a no usar ninguna skill. EvoSkills, en cambio, produjo mejoras sustanciales dentro del mismo dominio.

Para los autores, eso refuerza la idea de “desalineación cognitiva” entre humanos y máquinas. Un flujo de trabajo razonable para un experto humano no necesariamente coincide con el patrón de razonamiento, uso de contexto y restricciones operativas de un agente LLM.

El paper incluye además un estudio de caso sobre detección de periodos de tránsito de exoplanetas con datos de TESS. En esa tarea, el sistema pasó por varias versiones del algoritmo antes de alcanzar 100% en la prueba oráculo.

Según el documento, el agente comenzó con Box Least Squares y distintos métodos de detrending, pero quedó trabado en 75% de aprobación. Solo después de varias rondas y del feedback acumulado migró a Transit Least Squares, añadió refinamiento en dos etapas y verificación de alias, logrando finalmente 4 de 4 pruebas superadas.

Ese ejemplo sirve para ilustrar un punto más amplio. El verificador sustituto puede detectar errores de implementación y regresiones, pero no reemplaza por completo a la evaluación final. La prueba oráculo sigue siendo necesaria para revelar limitaciones algorítmicas que el proxy no puede inferir por sí solo.

Implicaciones para el futuro de los agentes de IA

Más allá de las cifras, EvoSkills aporta una tesis relevante para el desarrollo de agentes más autónomos. Si un modelo puede descubrir por experiencia cuáles procedimientos le resultan más eficaces y empaquetarlos de forma reutilizable, entonces la mejora ya no depende solo de nuevos pesos, más datos o mejores prompts.

Eso también puede reducir el cuello de botella de la autoría humana. En vez de escribir manualmente bibliotecas extensas de instrucciones, un sistema podría generar, probar y depurar sus propias skills sobre la marcha, preservando conocimiento útil entre tareas.

Para lectores del ecosistema cripto e IA, el concepto resuena con debates ya conocidos sobre automatización, modularidad y capacidad de adaptación. Los agentes que operen en trading, análisis on-chain, ciberseguridad o flujos empresariales necesitarán cada vez más procedimientos compuestos y verificables, no solo llamadas aisladas a herramientas.

El trabajo todavía se presenta como preprint y sus autores señalan que en el futuro buscarán extender el marco hacia evolución de skills entre múltiples modelos. Aun así, los resultados reportados muestran una dirección clara: los agentes podrían empezar a construir mejor sus propias capacidades que lo que hoy logran muchos diseños hechos manualmente.

Si esa tendencia se confirma, la discusión sobre cómo “enseñar” a los agentes cambiará de foco. En lugar de preguntar únicamente qué herramientas darles, habrá que preguntar también cómo permitirles crear, probar y transmitir sus propias habilidades de manera segura y reutilizable.

Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín

𝕏

USDT	Tether USDt	-0,0%	$39,33 mmd
BTC	Bitcoin	-0,28%	$16,9 mmd
ETH	Ethereum	-0,58%	$7,42 mmd
USDC	USDC	0,0%	$3,6 mmd
SOL	Solana	-0,49%	$2,14 mmd
XRP	XRP	-1,04%	$1,03 mmd
BNB	BNB	0,68%	$0,698 714 mmd
USD1	World Liberty Financial USD	-0,02%	$0,608 497 mmd
DOGE	Dogecoin	-0,91%	$0,590 364 mmd
SIREN	siren	121,35%	$0,409 848 mmd

SIREN	siren	121,35%	$0,540 93
STABLE	Stable	3,91%	$0,027 988
XMR	Monero	3,41%	$327,08
DEXE	DeXe	2,54%	$9,07
JST	JUST	2,33%	$0,062 85
TON	Toncoin	1,87%	$1,25
ASTER	Aster	1,23%	$0,668 304
NEAR	NEAR Protocol	0,75%	$1,24
BNB	BNB	0,68%	$593,31
BSV	Bitcoin SV	0,67%	$16,11

ALGO	Algorand	-7,53%	$0,114 99
M	MemeCore	-7,42%	$2,48
EDGE	edgeX	-6,16%	$0,886 922
FET	Artificial Superintelligence Alliance	-5,47%	$0,226 161
WLD	Worldcoin	-5,26%	$0,248 6
ENA	Ethena	-4,06%	$0,077 573
RENDER	Render	-4,04%	$1,83
SEI	Sei	-3,86%	$0,051 99
BONK	Bonk	-3,54%	$0,000 005
ONDO	Ondo	-3,49%	$0,248 939

EvoSkills: IA supera habilidades humanas al crear skills para agentes LLM

Qué propone EvoSkills y por qué importa

Resultados: supera a líneas base y a skills humanas

Transferencia entre modelos y evidencia de desalineación humano-máquina

Qué dominios mejoraron más y qué revela el caso científico

Implicaciones para el futuro de los agentes de IA

Suscríbete a nuestro boletín

Artículos Relacionados

ProCeedRL promete llevar a los agentes de IA más allá del límite del aprendizaje por refuerzo tradicional

SEAL propone datos sintéticos auditables y más justos para redes 6G impulsadas por IA

Irán amenaza con atacar Stargate UAE, el megaproyecto de IA de OpenAI y Nvidia en Abu Dhabi

$RENDER cae 3% en 24 horas: ¿señales de agotamiento o corrección técnica?