Por Canuto  

OpenRouter presentó Fusion, una herramienta que combina las respuestas de varios modelos de inteligencia artificial en una sola llamada a la API. Según la empresa, esta síntesis permitió superar el rendimiento de modelos individuales de frontera en el benchmark DRACO, incluso con paneles de bajo costo que se acercaron a resultados de gama alta.
***

  • OpenRouter afirma que Fusion alcanzó 69,0% en DRACO al combinar Fable 5 y GPT-5.5 con síntesis de Opus 4.8.
  • La empresa asegura que incluso un panel económico superó a GPT-5.5 y Opus 4.8, con un costo 50% menor y a solo 1% de Fable 5.
  • Fusion puede invocarse como un solo modelo, como herramienta de servidor o mediante un panel personalizado en la API y chatroom.

 


OpenRouter presentó Fusion, una nueva herramienta con la que busca mejorar el rendimiento de la inteligencia artificial al combinar respuestas generadas por múltiples modelos en una sola salida final. La propuesta apunta a simplificar ese proceso hasta el punto de que el usuario solo deba hacer una llamada de API, como si estuviera consultando a un único sistema.

La idea central detrás de Fusion es que la síntesis de varias perspectivas puede producir resultados superiores a los de un modelo individual. Según explicó la empresa en un comunicado publicado en su blog, esa hipótesis fue puesta a prueba con tareas de investigación profunda que exigen razonamiento, uso de herramientas y capacidad de síntesis con citas.

Para medir el desempeño, OpenRouter utilizó DRACO, un benchmark desarrollado para evaluar investigación profunda en 100 tareas distribuidas en 10 dominios. Entre ellos figuran finanzas, derecho, medicina, tecnología, diseño UX, investigación académica, conocimientos generales, comparación de productos, asistencia personalizada y búsquedas complejas tipo aguja en un pajar.

El resultado más destacado del anuncio fue una puntuación de 69,0% para una configuración de Fusion que combinó Fable 5 y GPT-5.5, con Claude Opus 4.8 como sintetizador. Ese resultado superó el 65,3% obtenido por Fable 5 en solitario y también quedó por encima de otras combinaciones probadas.

La publicación también sugiere que la diversidad entre modelos puede ofrecer ventajas comparables a las de un equipo humano bien compuesto. En otras palabras, distintas arquitecturas y rutas de razonamiento pueden cubrir puntos ciegos, corregir errores y ampliar el rango de fuentes consultadas.

Qué mostró el benchmark DRACO en las pruebas de Fusion

OpenRouter evaluó Fusion sobre 100 tareas del benchmark DRACO para observar si un panel de modelos realmente supera a las ejecuciones individuales. La empresa reportó que los paneles superaron de forma consistente a los modelos por separado en investigaciones profundas.

Dentro de los resultados publicados, la combinación de Fable 5 con GPT-5.5, sintetizada por Opus 4.8, obtuvo 69,0%. Otra configuración con Opus 4.8, GPT-5.5 y Gemini 3.1 Pro, también sintetizada por Opus 4.8, alcanzó 68,3%.

Una tercera variante, con Opus 4.8 y GPT-5.5, llegó a 67,6%. En tanto, un panel formado por dos instancias de Opus 4.8 y sintetizado por ese mismo modelo consiguió 65,5%.

Entre las ejecuciones individuales, Fable 5 registró 65,3%, DeepSeek V4 Pro obtuvo 60,3%, GPT-5.5 marcó 60,0% y Claude Opus 4.8 llegó a 58,8%. Más abajo aparecieron Kimi K2.6 con 53,7%, Gemini 3.1 Pro con 45,4% y Gemini 3 Flash con 43,1%.

Un dato que OpenRouter destacó con énfasis fue el desempeño de un panel económico integrado por Gemini 3 Flash, Kimi K2.6 y DeepSeek V4 Pro. Esa combinación obtuvo 64,7%, superó a GPT-5.5 y Opus 4.8, quedó a solo 1% de la puntuación de Fable 5 y, según la empresa, costó 50% menos.

La compañía aclaró además que 7 de las 100 tareas de DRACO no se completaron en el caso de Fable 5 porque sus filtros de contenido las bloquearon. OpenRouter decidió no reemplazar esos casos con Opus 4.8, por lo que el resultado de Fable refleja 93 tareas evaluadas en lugar del total de 100.

Esa diferencia metodológica, según la empresa, ofrece una imagen más fiel del desempeño de Fable 5, aunque vuelve ligeramente desiguales las comparaciones directas con modelos que sí completaron todo el conjunto. Aun así, OpenRouter presentó los resultados como evidencia de que Fusion puede ir más allá del rendimiento de frontera en esta clase de pruebas.

Cómo funciona Fusion en la práctica

Fusion opera enviando el mismo prompt a un panel de modelos en paralelo, todos con búsqueda web y recuperación web habilitadas. Luego, un modelo juez revisa cada respuesta y elabora un análisis estructurado con consensos, contradicciones, coberturas parciales, aportes únicos y puntos ciegos.

Después de esa etapa, el modelo que llama a Fusion redacta la respuesta final basándose en dicho análisis. Todo el flujo corre del lado del servidor, por lo que desde el punto de vista del desarrollador la integración puede verse como una consulta ordinaria a un único modelo.

OpenRouter indicó que Fusion puede invocarse de forma directa mediante el slug de modelo “openrouter/fusion”. También puede utilizarse con paneles personalizados, donde el usuario define qué modelo sintetiza y cuáles participan como modelos de análisis.

La empresa mostró un ejemplo de uso donde el usuario consulta por los argumentos más fuertes a favor y en contra de los impuestos al carbono. En otro ejemplo, el panel se personaliza con Gemini 3 Flash Preview como modelo principal y Kimi K2.6 junto a DeepSeek V4 Pro como modelos de análisis.

Además de la llamada directa, OpenRouter explicó que existen cuatro formas de usar Fusion. La primera es a través del chatroom de la plataforma, la segunda es mediante el slug de modelo, la tercera como herramienta de servidor y la cuarta como complemento dentro de una llamada estándar a completions o responses.

En el modo de herramienta de servidor, el modelo base puede decidir por sí mismo cuándo conviene invocar Fusion. Ese esquema está pensado para escenarios donde no todas las consultas ameritan el costo y el tiempo extra de pedir varias perspectivas a la vez.

Por qué OpenRouter eligió DRACO y qué mide realmente

La empresa señaló que necesitaba un benchmark capaz de distinguir entre una respuesta que suena exhaustiva y una que realmente lo es. A juicio de OpenRouter, muchos benchmarks tradicionales miden recuperación factual o acertijos de razonamiento, pero no capturan bien el trabajo de investigación compleja con herramientas y síntesis.

DRACO fue diseñado precisamente para ese tipo de tareas. Cada una de sus 100 pruebas incluye una rúbrica de alrededor de 39 criterios ponderados en cuatro categorías: precisión factual, amplitud y profundidad, calidad de presentación y calidad de citación.

La categoría de precisión factual abarca cerca de 20 criterios. La de amplitud y profundidad reúne aproximadamente 9, mientras que la calidad de presentación contiene cerca de 6 y la calidad de citación suma unas 5 métricas.

OpenRouter destacó que algunos criterios pueden tener pesos negativos. Eso significa que si una respuesta incurre en errores graves, como recomendaciones médicas peligrosas, la puntuación recibe una penalización importante.

Ese diseño, según la empresa, dificulta inflar resultados simplemente con verbosidad. Un modelo que hable mucho pero afirme falsedades con seguridad puede terminar peor posicionado que otro más conciso y preciso.

Cada respuesta en DRACO es calificada criterio por criterio por un modelo juez, tres veces de manera independiente. La métrica que se informa es la puntuación media normalizada entre 0 y 100 para el conjunto completo de tareas.

La compañía también recordó que DRACO tiene limitaciones reconocidas por sus autores. Entre ellas figuran que solo evalúa interacciones en texto y en inglés, que usa un conjunto de tareas estático y que las puntuaciones absolutas pueden variar entre 10 y 25 puntos según el modelo juez elegido, aunque las clasificaciones relativas tienden a mantenerse estables.

El problema de la contaminación y las salvaguardas aplicadas

Durante las pruebas, OpenRouter detectó un problema delicado: los modelos con acceso a búsqueda web estaban encontrando en línea la rúbrica de evaluación de DRACO. Aunque la empresa dijo que esto ocurrió por términos de búsqueda y no como una trampa intencional, lo consideró un riesgo claro de contaminación del benchmark.

Para resolverlo, la compañía excluyó de la búsqueda web y de la recuperación web las ubicaciones donde estaban alojados esos resultados y páginas relacionadas con la rúbrica. De ese modo, los modelos del panel no pudieron acceder a materiales que sesgaran la evaluación.

La publicación explicó que las herramientas de servidor de OpenRouter permiten aplicar listas de exclusión en todos los modelos usando proveedores externos como Exa o Parallel. Gracias a ello, la corrección se implementó como un cambio de configuración de una sola línea y no como parches distintos por modelo.

Según la empresa, todos los resultados presentados en el anuncio fueron producidos después de activar esas listas de exclusión. Esa precisión es relevante porque intenta reforzar la credibilidad del experimento en un momento en que la contaminación de benchmarks se ha vuelto una preocupación recurrente en la industria de IA.

OpenRouter añadió que quienes hagan sus propias evaluaciones también pueden usar este mecanismo. Para ello, basta con pasar “excluded_domains” a web_search o “blocked_domains” a web_fetch dentro de las definiciones de herramientas.

Ese detalle técnico ayuda a entender que el valor de Fusion no depende solo del panel de modelos, sino también de la infraestructura que coordina búsquedas, recuperaciones y controles sobre las fuentes consultadas. En contextos de investigación profunda, la calidad del entorno operativo puede alterar tanto el resultado como la arquitectura del modelo mismo.

La síntesis por sí sola ya genera una mejora notable

Uno de los hallazgos más curiosos del anuncio fue el desempeño de un panel compuesto por dos instancias del mismo modelo. OpenRouter ejecutó Opus 4.8 contra sí mismo y luego utilizó también a Opus 4.8 como sintetizador final.

El resultado fue una puntuación de 65,5%, frente al 58,8% que obtuvo Opus 4.8 en solitario. Eso equivale a una mejora de 6,7 puntos, sin introducir diversidad arquitectónica entre los participantes del panel.

La interpretación de la empresa es que una parte importante de la ganancia de Fusion proviene del paso de síntesis en sí mismo. Incluso cuando el modelo base es idéntico, dos ejecuciones separadas pueden seguir caminos de razonamiento distintos, usar herramientas de otra forma y seleccionar fuentes diferentes.

OpenRouter matizó que ese efecto no basta para superar a un panel diverso de modelos. Sin embargo, sí ofrece una pista útil sobre cómo y por qué una segunda capa de revisión y consolidación puede elevar la calidad de la respuesta final.

Este punto resulta especialmente relevante para desarrolladores y empresas que evalúan costos. Si parte del salto de rendimiento viene de sintetizar múltiples intentos del mismo sistema, pueden existir configuraciones intermedias entre un modelo individual y un panel heterogéneo completo.

Al mismo tiempo, el anuncio sugiere que la carrera por mejores resultados en IA no depende solo de entrenar modelos más grandes. También puede pasar por orquestar mejor varios modelos, incluso si algunos son más baratos o si comparten la misma base subyacente.

Limitaciones, tiempos de respuesta y preguntas frecuentes del lanzamiento

OpenRouter actualizó la publicación el 14 de junio con una sección de preguntas frecuentes tras recibir comentarios, sugerencias e informes de errores. Allí aclaró que Fusion no debe entenderse, al menos por ahora, como un reemplazo inmediato de Fable.

La empresa sostuvo que los resultados muestran que fusionar múltiples modelos puede alcanzar y superar un nivel de rendimiento comparable al de Fable en tareas de investigación profunda de DRACO. Sin embargo, remarcó que solo se evaluó una clase de tareas y que DRACO no incluye trabajos de largo plazo, un área donde Fable destaca.

Respecto a la programación, OpenRouter dijo que Fusion tampoco es un reemplazo inmediato para modelos especializados en codificación. La idea, en cambio, es que sirva como una herramienta de servidor que el modelo de código pueda invocar de forma selectiva para cuestiones como arquitectura o investigación de mejores prácticas.

Sobre las herramientas disponibles en el benchmark, la compañía precisó que tanto los paneles de Fusion como las ejecuciones individuales tuvieron acceso a las mismas tres: openrouter:web_search, openrouter:web_fetch y openrouter:bash. Mantener idéntico ese conjunto buscó preservar una comparación justa entre configuraciones.

OpenRouter también comentó que el rendimiento de DeepSeek V4 Pro le resultó sorprendente. Con 60,3%, el modelo se desempeñó de forma similar a Opus 4.8 y GPT-5.5, algo que la empresa atribuyó tentativamente a diferencias en el presupuesto fijo de llamadas a herramientas usado en la prueba.

Según esa hipótesis, Opus 4.8 podría rendir mejor con un presupuesto mayor de herramientas, mientras que Fable habría mostrado más eficiencia al pensar más antes de actuar y al administrar de forma más juiciosa ese presupuesto. La firma sugirió que ese límite fijo pudo haber comprimido la distancia entre modelos con estilos distintos de uso de herramientas.

En cuanto a la velocidad, la empresa advirtió que Fusion puede ser entre 2 y 3 veces más lento que una llamada estándar cuando se activa. La razón es simple: debe enviar el prompt a varios modelos, esperar a que todos terminen y luego procesar la síntesis antes de devolver la respuesta final.

Para el ecosistema de IA, el lanzamiento apunta a una idea que gana fuerza: el mejor desempeño ya no depende únicamente del modelo más potente de forma aislada. Si la síntesis orquestada sigue entregando mejoras medibles, herramientas como Fusion podrían convertirse en una capa estratégica para productos que priorizan calidad analítica por encima de la velocidad bruta.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín