Ornith-1.0, la nueva familia de modelos abiertos de DeepReinforce para codificación agentica, llega con versiones de 9B, 31B, 35B MoE y 397B MoE, y asegura resultados de referencia frente a pesos pesados cerrados y abiertos. Su principal apuesta no es solo la escala, sino un marco de entrenamiento de auto-mejora que aprende tanto a resolver tareas como a construir el andamiaje que guía esas soluciones.
***
- DeepReinforce presentó Ornith-1.0, una familia de LLMs abiertos para codificación agentica construidos sobre Gemma 4 y Qwen 3.5.
- El modelo insignia de 397B MoE reportó 77,5 en Terminal-Bench 2.1 y 82,4 en SWE-Bench Verified, por encima de Claude Opus 4.7 en ambas métricas.
- La firma destaca un enfoque de entrenamiento auto-mejorante con defensas contra hacking de recompensas y una variante 9B orientada a despliegues en el borde.
La firma DeepReinforce presentó Ornith-1.0 como una nueva familia de modelos de lenguaje de código abierto especializada en codificación agentica. El lanzamiento incluye cuatro variantes principales: 9B Dense, 31B Dense, 35B MoE y 397B MoE.
La presentación pública de @ornith_ resumió el anuncio con un tono promocional. Allí señaló que la familia cubre todo el rango de tamaños de parámetros y que logra rendimiento de vanguardia entre modelos abiertos de escala comparable.
El anuncio llega en un momento en que la competencia entre modelos abiertos y cerrados se concentra cada vez más en tareas de programación asistida. Ese segmento es clave porque combina razonamiento, uso de herramientas, navegación por repositorios, edición de archivos y validación mediante pruebas.
Para lectores menos familiarizados con el término, la codificación agentica describe sistemas capaces de ejecutar flujos complejos de trabajo de software con cierta autonomía. No se limitan a responder preguntas de código, sino que también planifican pasos, usan herramientas, corrigen errores y verifican resultados.
Según la publicación técnica de la empresa, Ornith-1.0 fue construido sobre modelos previamente entrenados Gemma 4 y Qwen 3.5. A partir de esa base, DeepReinforce afirma haber desarrollado una estrategia de entrenamiento orientada a mejorar el desempeño en tareas reales de desarrollo.
Qué modelos componen Ornith-1.0 y qué resultados reportan
La familia abarca desde un modelo compacto de 9B hasta una variante de frontera de 397B con arquitectura MoE. Entre ambos extremos aparecen un 31B Dense y un 35B MoE, con la intención de cubrir despliegues de borde, uso empresarial y escenarios de máxima capacidad.
DeepReinforce destacó especialmente al Ornith-1.0-397B. Según sus cifras, ese modelo logró 77,5 en Terminal-Bench 2.1 y 82,4 en SWE-Bench Verified.
La empresa comparó esos resultados con Claude Opus 4.7, al que atribuye 70,3 en Terminal-Bench 2.1 y 80,8 en SWE-Bench Verified. Bajo esa tabla, el nuevo modelo también habría superado a MiniMax M3 y DeepSeek-V4-Pro en esas dos referencias concretas.
En la comparación publicada, MiniMax M3 aparece con 66,0 en Terminal-Bench 2.1 y 80,5 en SWE-Bench Verified. DeepSeek-V4-Pro figura con 67,9 en Terminal-Bench 2.1 y 80,6 en SWE-Bench Verified.
La tabla completa del blog muestra además que Ornith-1.0-397B obtuvo 78,2 en Terminal-Bench 2.1 con Claude Code, 62,2 en SWE-Bench Pro, 78,9 en SWE-Bench Multilingual y 48,2 en NL2Repo. También registró 77,1 en ClawEval Avg, 41,2 en SWE Atlas QnA, 42,6 en SWE Atlas RF y 39,1 en SWE Atlas TW.
En ese mismo cuadro, Claude Opus 4.8 aún conserva ventaja en varias métricas. Por ejemplo, aparece con 85 en Terminal-Bench 2.1 usando Terminus-2, 78,9 en Claude Code, 87,6 en SWE-Bench Verified, 69,2 en SWE-Bench Pro y 69,7 en NL2Repo.
GLM-5.2-744B también supera a Ornith-1.0-397B en algunas pruebas del cuadro divulgado. Allí figura con 81,0 en Terminal-Bench 2.1 con Terminus-2, 82,7 con Claude Code, 62,1 en SWE-Bench Pro y 48,9 en NL2Repo.
Qwen3.7-Max mantiene un perfil competitivo en la misma tabla. La referencia publicada le atribuye 73,5 en Terminal-Bench 2.1 con Terminus-2, 69,8 con Claude Code, 80,4 en SWE-Bench Verified, 60,6 en SWE-Bench Pro y 47,2 en NL2Repo.
La variante Ornith-1.0-35B también fue resaltada por su relación entre tamaño y rendimiento. DeepReinforce sostiene que supera a modelos de tamaño similar como Qwen 3.5-35B, Qwen 3.6-35B y Gemma 4-31B.
En Terminal-Bench 2.1 con Terminus-2, el modelo 35B obtuvo 64,2. Eso contrasta con 41,4 para Qwen3.5-35B, 52,5 para Qwen3.6-35B, 42,1 para Gemma4-31B y 53,5 para Qwen3.5-397B.
En SWE-Bench Verified, Ornith-1.0-35B reportó 75,6. Esa cifra quedó por encima de 70 para Qwen3.5-35B, 73,4 para Qwen3.6-35B y 52 para Gemma4-31B, aunque ligeramente por debajo de 76,4 para Qwen3.5-397B.
El texto técnico subraya un dato llamativo para esa escala. Pese a tener 35B de parámetros, Ornith-1.0-35B superó a Qwen 3.5-397B en Terminal-Bench 2.1 por 64,4 frente a 53,5, según la explicación narrativa del lanzamiento.
En el extremo compacto, Ornith-1.0-9B fue presentado como una opción apta para despliegue en el borde. La empresa indicó que alcanzó 43,1 en Terminal-Bench 2.1 y 69,4 en SWE-Bench Verified.
Esos números le permiten competir con modelos bastante mayores dentro de la comparación presentada. En la tabla, Gemma4-31B figura con 42,1 en Terminal-Bench 2.1 y 52 en SWE-Bench Verified, mientras Qwen3.5-35B aparece con 41,4 y 70 respectivamente.
El 9B también obtuvo 40,6 en Terminal-Bench 2.1 con Claude Code, 42,9 en SWE-Bench Pro, 52 en SWE-Bench Multilingual y 27,2 en NL2Repo. A eso sumó 63,1 en ClawEval Avg, 17,9 en SWE Atlas QnA, 16,6 en SWE Atlas RF y 15,3 en SWE Atlas TW.
La apuesta técnica: auto-mejora y andamiaje aprendido
Más allá de los benchmarks, DeepReinforce sostiene que la innovación central de Ornith-1.0 está en su marco de entrenamiento auto-mejorante. La idea es que el modelo no solo aprenda a producir soluciones, sino también a generar los andamiajes que orientan esas soluciones.
En términos simples, un andamiaje puede entenderse como la estructura operativa que organiza el trabajo del agente. Eso incluye memoria, manejo de errores, secuencias de herramientas y lógica de orquestación para abordar una tarea de programación compleja.
La empresa plantea una diferencia con enfoques más tradicionales de aprendizaje por refuerzo en LLMs. En lugar de usar un arnés fijo diseñado por humanos para una categoría de tareas, Ornith trata ese andamiaje como un objeto aprendible que coevoluciona con la política.
Cada paso de RL, según la explicación técnica, ocurre en dos etapas. Primero, condicionado a una tarea y al andamiaje previo usado para ella, el modelo propone un andamiaje refinado.
Luego, condicionado a ese nuevo andamiaje y a la descripción de la tarea, el sistema genera una proyección de solución. La recompensa obtenida por esa proyección se propaga a ambas etapas del proceso.
Ese diseño busca optimizar no solo la respuesta final, sino también la forma de organizar el razonamiento y la ejecución. Repetido durante el entrenamiento, el mecanismo produciría un bucle en el que los andamiajes se mutan y seleccionan de acuerdo con trayectorias de mayor recompensa.
DeepReinforce argumenta que ese circuito favorece la aparición automática de estrategias específicas por categoría de tarea. En vez de insertar manualmente una receta de trabajo para cada problema, el modelo descubre patrones útiles a partir del entrenamiento.
Para el mercado de IA abierta, este punto es relevante porque apunta a un cuello de botella actual. Muchos sistemas avanzados mejoran gracias a wrappers, agentes o scripts externos muy elaborados, pero ese tipo de ingeniería suele quedar fuera del modelo base y complica la reproducibilidad.
Si el andamiaje puede aprenderse dentro del proceso de RL, una parte de esa complejidad se desplaza al entrenamiento. Eso podría facilitar modelos más autónomos para programación, aunque todavía queda por ver cómo se comportan fuera de las pruebas publicadas por sus desarrolladores.
Cómo intenta evitar el hacking de recompensas
Permitir que un modelo escriba su propio andamiaje introduce un problema evidente. Si el sistema solo persigue una recompensa, podría aprender atajos para satisfacer al verificador sin resolver realmente la tarea.
La empresa describe varios ejemplos de ese riesgo. Entre ellos menciona leer archivos de prueba visibles, codificar en duro artefactos esperados, tocar el archivo buscado, escribir una salida literal esperada o copiar una solución oráculo presente en el entorno.
Para responder a ese escenario, DeepReinforce dice haber establecido tres capas de defensa. La primera consiste en fijar un límite de confianza exterior donde el entorno, la superficie de herramientas y el aislamiento de pruebas permanecen inmutables y fuera del alcance del modelo.
Bajo ese esquema, el sistema solo puede evolucionar lo que la firma llama política interior. Eso abarca su memoria, el manejo de errores y la lógica de orquestación, pero no los límites externos del entorno de evaluación.
La segunda capa es un monitor determinista. Ese componente marca cualquier intento de leer rutas ocultas, modificar scripts de verificación o invocar acciones fuera de la superficie de herramientas permitida.
Cuando detecta una de esas conductas, la trayectoria recibe recompensa cero y queda excluida del cálculo de ventajas. El objetivo es cerrar la puerta a formas de manipulación que sí pueden especificarse exactamente.
La tercera defensa se aplica a conductas más sutiles, donde el juego puede ocurrir completamente dentro de las herramientas autorizadas. Para ese nivel, la empresa utiliza un juez LLM congelado que actúa como veto sobre el verificador en lugar de ser la recompensa principal.
Ese detalle importa porque el hacking de recompensas es uno de los grandes problemas de los agentes de software. Un benchmark alto pierde valor si el sistema aprende a explotar la prueba en vez de ejecutar trabajo útil en contextos reales.
La descripción de estas salvaguardas no equivale a una garantía absoluta. Sin embargo, muestra que la firma intenta anticipar una de las críticas más frecuentes contra los agentes entrenados por refuerzo.
Entrenamiento asincrónico y contexto competitivo en IA abierta
En la parte de entrenamiento, Ornith-1.0 adopta una estrategia llamada pipeline-RL para abordar el problema de política fuera de línea en proyecciones largas. El texto técnico explica que los tokens antiguos reciben un peso de antigüedad decreciente y finalmente son descartados al superar un umbral.
La fórmula publicada define un peso w(d_t) con tres tramos. Toma valor 1 cuando la antigüedad es menor o igual a K1, decae de forma exponencial entre K1 y K2, y pasa a 0 cuando la antigüedad supera K2.
La pérdida de GRPO a nivel de token también se pondera con ese peso temporal. El cociente r_t se define como la probabilidad del token bajo la política actual dividida por la probabilidad bajo la política de comportamiento.
Para la audiencia más amplia, este apartado refleja una tensión clásica en RL para LLMs. Cuanto más largas son las trayectorias de generación y uso de herramientas, más difícil resulta mantener actualizada la política que produjo cada paso intermedio.
Además de la arquitectura y el entrenamiento, la empresa publicó una nota metodológica sobre evaluación. Terminal-Bench 2.1 con Terminus-2 se ejecutó con parser=json, temperature=1.0, top_p=1.0, ventana de contexto de 128K, tiempo de espera de 4 horas, 32 núcleos de CPU, 48 GB de RAM y promedio de 5 corridas.
Para Terminal-Bench 2.1 con Claude Code, la configuración indicada usa parser=json, temperature=1.0, top_p=1.0 y max_new_tokens=131072. Los resultados también se promedian en 5 ejecuciones.
En SWE-Bench Verified, Pro y Multilingual, la evaluación se realizó con OpenHands harness, temperature=1.0, top_p=0.95 y una ventana de contexto de 256K. SWE Atlas QnA, RF y TW se ejecutó con mini SWE agent harness, temperature=1.0, top_p=0.95 y contexto de 128K.
NL2Repo se reportó con temperature=1.0, top_p=1.0, contexto de 400K, salida de 48K y filtros anti-hacking. ClawEval, descrito como un benchmark de código agente sobre distribuciones de tareas de usuarios reales, se ejecutó con temperature=0.6 y contexto de 256K.
En conjunto, el lanzamiento de Ornith-1.0 refuerza una tendencia clara en el sector. La frontera de la IA abierta ya no compite solo por chatear mejor, sino por ejecutar tareas de software con mayor autonomía, menor costo y menos dependencia de herramientas cerradas.
También deja una lectura más amplia para la industria tecnológica y financiera que sigue de cerca la IA. Modelos abiertos con mejor desempeño en programación pueden acelerar desde automatización empresarial hasta desarrollo de productos, auditoría de código y creación de agentes especializados.
Por ahora, las afirmaciones de rendimiento provienen de los materiales publicados por DeepReinforce y del anuncio difundido por Ornith. Como ocurre con otros lanzamientos en esta carrera, la validación más importante llegará cuando desarrolladores externos repliquen resultados y prueben estos modelos en flujos de trabajo reales.
Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.
Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
Empresas
SpaceX apunta a vender servicio de telefonía Starlink directamente a consumidores en EE. UU.
Blockchain
XRPL apuesta por verificación formal con Common Prefix para blindar su seguridad
Europa
Actriz Cate Blanchett lanza herramienta gratuita para proteger la identidad de la IA
IA