Por Angel Di Matteo   𝕏 @shadowargel

El laboratorio DeepReinforce lanzó Ornith-1.0, una nueva familia de modelos abiertos especializados en programación autónoma. Su versión más potente supera a Claude Opus 4.7 en algunos de los principales benchmarks para desarrollo de software, mientras que sus variantes más pequeñas buscan llevar capacidades avanzadas de programación a hardware mucho más modesto.

***

  • Ornith-1.0 incluye cuatro modelos de entre 9.000 y 397.000 millones de parámetros.
  • La versión insignia supera a Claude Opus 4.7 en pruebas de programación autónoma.
  • Todos los modelos se distribuyen bajo licencia MIT y sin restricciones geográficas.

 

El laboratorio de investigación DeepReinforce, conocido anteriormente por proyectos como CUDA-L1 e IterX, anunció el lanzamiento de Ornith-1.0, una nueva familia de modelos de inteligencia artificial de código abierto desarrollados específicamente para tareas de programación autónoma.

La colección está disponible en Hugging Face bajo licencia MIT, permitiendo su uso y modificación sin restricciones regionales. Incluye cuatro variantes con 9.000 millones, 31.000 millones, 35.000 millones (Mixture of Experts) y 397.000 millones de parámetros (Mixture of Experts).

Los parámetros representan, de forma simplificada, la cantidad de conexiones y ajustes internos que un modelo utiliza para aprender. En general, cuantos más parámetros posee, mayor es su capacidad para resolver tareas complejas, aunque también requiere una infraestructura computacional considerablemente más potente, detalla Decrypt.

El foco está en la programación “agéntica”

DeepReinforce define Ornith-1.0 como una familia de modelos especializada en programación agéntica, una de las áreas de mayor crecimiento dentro de la inteligencia artificial durante 2026.

A diferencia de los asistentes conversacionales tradicionales, que responden a instrucciones puntuales del usuario, un agente de IA recibe un objetivo y ejecuta de forma autónoma múltiples acciones para alcanzarlo.

En el ámbito del desarrollo de software, esto implica que el modelo puede analizar repositorios completos, ejecutar pruebas, identificar errores, modificar archivos, volver a compilar el proyecto y repetir el proceso hasta resolver el problema sin intervención humana constante.

Este tipo de capacidades se ha convertido en uno de los segmentos más valiosos de la industria, ya que permite automatizar flujos completos de desarrollo en lugar de limitarse a generar fragmentos de código.

Una estrategia que aprende por sí misma

Uno de los principales aportes técnicos de Ornith-1.0 consiste en que no depende de un conjunto fijo de reglas diseñadas previamente por ingenieros sobre cómo abordar una tarea.

En la mayoría de los agentes de programación actuales, ese flujo de trabajo —cuándo utilizar herramientas, cómo dividir un problema complejo o cómo responder ante errores— es definido manualmente.

Ornith adopta un enfoque distinto: durante el entrenamiento mediante aprendizaje por refuerzo, el propio modelo aprende primero una estrategia para resolver el problema y posteriormente genera la solución. Las recompensas obtenidas tras cada intento sirven para optimizar tanto la calidad del código como la estrategia utilizada para producirlo.

Según DeepReinforce, este proceso permite que el sistema desarrolle métodos propios para resolver problemas complejos sin depender exclusivamente de instrucciones humanas.

Protección frente al “reward hacking”

Permitir que un modelo diseñe parte de su propio proceso de resolución también introduce nuevos riesgos.

Uno de ellos es el denominado reward hacking, fenómeno en el que una IA encuentra formas de aparentar que resolvió correctamente una tarea sin haber realizado realmente el trabajo solicitado.

Para evitar este tipo de comportamientos, DeepReinforce implementó tres niveles de protección. El entorno de ejecución y las pruebas permanecen completamente fuera del alcance del modelo, un monitor determinista detecta cualquier intento de modificar archivos críticos o alterar los sistemas de verificación y, finalmente, un modelo independiente supervisa los resultados antes de validarlos.

Los resultados frente a la competencia

El modelo insignia de 397.000 millones de parámetros obtuvo una puntuación de 82,4% en SWE-bench Verified, una de las pruebas más utilizadas para evaluar la capacidad de una IA de corregir errores reales presentes en proyectos de software de código abierto.

Ese resultado supera el 80,8% registrado por Claude Opus 4.7 y el 80,6% alcanzado por DeepSeek-V4-Pro en la misma evaluación.

En Terminal Bench 2.1, otro benchmark que mide la capacidad de resolver tareas complejas dentro de entornos de terminal, Ornith alcanzó un 77,5%, por encima del 70,3% obtenido por Claude Opus 4.7.

DeepReinforce también publicó resultados en SWE-bench Pro, una versión más exigente del benchmark diseñada para reducir problemas de contaminación durante el entrenamiento. Allí, la versión de 397.000 millones de parámetros obtuvo 62,2%, manteniéndose por delante de DeepSeek V4 Pro, aunque todavía por debajo del actual líder comercial, Claude Opus 4.8.

Un modelo pequeño que también llama la atención

Uno de los resultados más llamativos corresponde al modelo de 9.000 millones de parámetros.

A pesar de ser entre tres y cuatro veces más pequeño que algunos de sus competidores, consiguió 69,4% en SWE-bench Verified, superando ampliamente el 52% obtenido por Gemma 4-31B y situándose muy cerca del 70% registrado por Qwen 3.5-35B.

Este desempeño podría convertirlo en una opción atractiva para desarrolladores que buscan ejecutar modelos localmente sobre hardware relativamente accesible.

No pretende reemplazar a los asistentes conversacionales

DeepReinforce aclara que Ornith-1.0 no fue diseñado como un modelo de propósito general.

Su documentación indica que probablemente ofrecerá un rendimiento inferior al de otros modelos cuando se trate de resumir documentos, redactar textos, responder preguntas generales o asistir en tareas académicas.

En cambio, su objetivo es integrarse en infraestructuras de desarrollo de software donde agentes de inteligencia artificial ejecutan de forma autónoma procesos completos dentro de repositorios y entornos de programación.

Aunque la versión más potente supera a Claude Opus 4.7 en varias pruebas específicas de programación, DeepReinforce reconoce que Claude Opus 4.8 continúa liderando algunas de las evaluaciones más recientes. Por ello, la comparación resulta especialmente relevante dentro del segmento de modelos abiertos especializados en desarrollo de software, más que frente a asistentes generalistas.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín