Un equipo de la Universidad Jiao Tong de Shanghái presentó OpenSeeker, un agente de búsqueda con IA que no solo libera sus pesos, sino también todo su dataset de entrenamiento. La propuesta apunta a romper una barrera clave del sector: el control corporativo sobre los datos de alta calidad necesarios para construir agentes capaces de investigar la web con varios pasos de razonamiento.
***
- OpenSeeker fue desarrollado por un equipo académico y libera modelo, datos y pipeline de síntesis.
- Con solo 11.700 muestras sintéticas y un único entrenamiento SFT, logró resultados competitivos en cuatro benchmarks.
- El sistema superó a DeepDive entre los proyectos totalmente abiertos y venció a Tongyi DeepResearch en BrowseComp-ZH.
La carrera por construir agentes de inteligencia artificial capaces de buscar, contrastar y sintetizar información en la web se ha convertido en uno de los frentes más intensos de la industria. Hasta ahora, gran parte de ese avance se había concentrado en grandes tecnológicas, no solo por su acceso a cómputo, sino también por el control de datasets especializados que rara vez se publican de forma completa.
En ese contexto aparece OpenSeeker, un proyecto presentado en el paper OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data, firmado por Yuwen Du, Rui Ye, Shuo Tang, Xinyu Zhu, Yijun Lu, Yuzhu Cai y Siheng Chen, todos vinculados a la Universidad Jiao Tong de Shanghái. La propuesta se define como el primer agente de búsqueda totalmente abierto, tanto en modelo como en datos, que alcanza desempeño de frontera en tareas de búsqueda web.
El anuncio tiene peso por una razón central. En los agentes de búsqueda modernos no basta con un gran modelo de lenguaje generalista. También hacen falta ejemplos de entrenamiento que enseñen a navegar páginas, decidir qué consultar, filtrar ruido y encadenar varias acciones antes de llegar a una respuesta verificable.
Según los autores, esa escasez de datos transparentes ha frenado durante casi un año a la comunidad de investigación abierta. OpenSeeker busca cerrar esa brecha con la liberación del código, el dataset y los pesos del modelo, en un intento explícito por democratizar el desarrollo de agentes avanzados de búsqueda.
Qué propone OpenSeeker y por qué importa
El trabajo parte de una idea simple, pero difícil de ejecutar. Si las mejores capacidades de búsqueda están encerradas detrás de modelos propietarios, el ecosistema abierto necesita no solo copiar arquitecturas, sino construir una receta completa. Esa receta incluye preguntas complejas, respuestas correctas y trayectorias de uso de herramientas que enseñen al sistema a razonar paso a paso.
Para eso, el equipo desarrolló dos innovaciones técnicas. La primera se llama síntesis de preguntas y respuestas escalable, controlable y basada en hechos. La segunda, síntesis de trayectorias con eliminación de ruido. Juntas buscan generar datos difíciles, útiles y verificables para entrenar agentes que no se limiten a recuperar un dato obvio desde memoria paramétrica.
En términos prácticos, OpenSeeker intenta fabricar problemas que obliguen a un modelo a explorar la web. Para lograrlo, reconstruye relaciones entre páginas y entidades a partir de la topología de enlaces, genera preguntas de varios saltos lógicos y además oculta entidades concretas con descripciones ambiguas para evitar que el sistema resuelva todo con una búsqueda directa por palabras clave.
Ese diseño importa porque muchos modelos parecen buenos en benchmarks simples, pero se derrumban cuando deben planificar una investigación más larga. En agentes de búsqueda, la dificultad no está solo en encontrar un enlace, sino en decidir qué consultar, interpretar resultados ruidosos y mantener una estrategia coherente durante decenas de pasos.
Cómo se construyó el dataset abierto
La síntesis de preguntas comienza con una representación de la web como un grafo dirigido, donde las páginas son nodos y los enlaces son conexiones. A partir de una página semilla elegida al azar, el sistema expande el subgrafo local para capturar un conjunto de páginas relacionadas. Luego extrae entidades centrales y las reorganiza en un subgrafo más compacto, enfocado en la lógica de razonamiento y no en el ruido textual.
Sobre esa estructura, el generador crea preguntas iniciales cuya resolución exige recorrer varios enlaces conceptuales. Después aplica un proceso de “ofuscación de entidades”, que reemplaza nombres concretos por descripciones vagas. Así, una consulta deja de ser un simple ejercicio de recuperación directa y pasa a exigir desambiguación y navegación multi paso.
El paper detalla además un esquema de verificación por rechazo con dos criterios. El primero mide dificultad: si un modelo base puede contestar correctamente sin herramientas externas, la muestra se descarta. El segundo mide resolubilidad: si el mismo modelo, recibiendo el subgrafo de entidades como contexto oráculo, no consigue derivar la respuesta, también se elimina porque la cadena lógica sería inconsistente.
La otra mitad del sistema se concentra en la calidad de las trayectorias. Durante la síntesis, un modelo secundario resume respuestas anteriores de herramientas para limpiar el contexto y permitir que el modelo maestro produzca razonamientos y acciones de mayor calidad. Sin embargo, en entrenamiento, el estudiante aprende desde el historial crudo. La meta es que internalice esa capacidad de filtrar ruido por sí mismo.
Este enfoque asimétrico es clave. El profesor genera decisiones usando un historial resumido y más legible. El alumno se entrena para imitar esas decisiones, pero mirando respuestas completas y desordenadas. Con ello, los autores buscan que el modelo final soporte mejor la realidad del contenido web, donde abundan menús, textos irrelevantes y señales confusas.
Resultados frente a agentes abiertos y competidores industriales
OpenSeeker fue afinado sobre Qwen3-30B-A3B-Thinking-2507, un modelo con 30.000 millones de parámetros totales y 3.000 millones activados durante la predicción. El contexto máximo fue de 256k tokens y el límite de llamadas a herramientas se fijó en 200. El entrenamiento se realizó en una sola corrida, sin filtrado heurístico adicional ni ajuste fino de hiperparámetros.
El dataset utilizado incluyó 10,3k muestras en inglés y 1,4k en chino, para un total de 11,7k ejemplos sintéticos. A pesar de ese volumen relativamente modesto, el sistema reportó resultados destacados en cuatro benchmarks: BrowseComp con 29,5%, BrowseComp-ZH con 48,4%, xbench-DeepSearch con 74,0% y WideSearch con 59,4% de item F1 en inglés.
Entre los proyectos totalmente abiertos de escala similar, OpenSeeker superó claramente a DeepDive-32B. En BrowseComp obtuvo 29,5% frente a 15,3%, y en BrowseComp-ZH logró 48,4% frente a 29,7%. También quedó muy por encima de MiroThinker-32B-DPO-v0.1, que marcó 13,0% en BrowseComp y 17,0% en BrowseComp-ZH.
Uno de los datos más llamativos es su comparación con Tongyi DeepResearch, un sistema industrial entrenado con preentrenamiento continuo, SFT y aprendizaje por refuerzo. En BrowseComp-ZH, OpenSeeker alcanzó 48,4% contra 46,7% de Tongyi. En BrowseComp en inglés, Tongyi mantuvo ventaja con 43,4% frente a 29,5%, pero el resultado en chino refuerza la tesis central del paper: la calidad de los datos puede compensar parte de la diferencia de recursos.
En xbench-DeepSearch, OpenSeeker marcó 74,0%, apenas por debajo de 75,0% de Tongyi DeepResearch y por encima de varios rivales abiertos y cerrados de gran escala. En WideSearch EN registró 59,4%, cerca de 60,0% de OpenAI o3 y por encima de WebLeaper-30B, que obtuvo 44,1%.
La calidad de los datos por encima del volumen
Los autores enfatizan un punto que toca el centro del debate actual en IA. Más datos no siempre implican mejores agentes si esos datos no enseñan razonamiento largo y uso efectivo de herramientas. OpenSeeker usó 11,7k muestras, mientras que MiroThinker reportó 147k en su versión SFT, pero aun así quedó claramente atrás en varias pruebas.
La comparación bajo el mismo esquema de entrenamiento también favorece a OpenSeeker. Frente a agentes entrenados solo con SFT, el proyecto académico fue el mejor promedio entre cuatro benchmarks. En BrowseComp-ZH, por ejemplo, superó a WebSailor-V2-30B-SFT por casi 20 puntos porcentuales, con 48,4% frente a 28,3%.
El paper también compara su dataset con combinaciones de datos de WebSailor-V2 y WebLeaper bajo volúmenes parecidos, entre 10k y 15k muestras. OpenSeeker-v1-Data-11.7k obtuvo 29,50 en BrowseComp, 74,00 en xbench y 59,40 en WideSearch-EN. La mejor combinación comparable reportada alcanzó 27,67, 66,00 y 44,07, respectivamente.
Otro elemento relevante es la dificultad de los ejemplos. En la evaluación interna, su dataset chino mostró trayectorias mucho más largas que BrowseComp-ZH. Promedió 46,35 llamadas a herramientas y 76,1k tokens, frente a 26,98 llamadas y 15,1k tokens del benchmark. En inglés, la dificultad fue comparable a BrowseComp-EN, aunque el equipo admite que esa parte del dataset aún no ha sido actualizada al estándar más reciente.
En la sección dedicada a trabajos concurrentes, el estudio también compara OpenSeeker con OpenResearcher y REDSearcher. Según los autores, OpenResearcher se apoya más en agregación de datasets abiertos existentes y simulación de trayectorias, mientras que REDSearcher combina mid-training, SFT y RL sin plena transparencia del protocolo. En ese marco, OpenSeeker se presenta como la primera iniciativa puramente académica con datos 100% abiertos y rendimiento de referencia.
El valor de esta publicación va más allá de un leaderboard. En un momento en que la industria de IA se mueve hacia agentes que investigan, compran, programan o toman decisiones en varias etapas, abrir el acceso a datasets de alta fidelidad puede alterar el equilibrio entre laboratorios corporativos y academia. Para comunidades tecnológicas cercanas al software libre, blockchain o infraestructura abierta, esa señal es difícil de ignorar.
Los autores sostienen que su trabajo apenas representa un piso y no un techo. Reconocen limitaciones de recursos, una sola corrida de entrenamiento y espacio para mejorar filtrado, distribución de datos y complejidad. Pero precisamente por eso el mensaje resulta potente: incluso con restricciones, un equipo universitario consiguió acercarse al estado del arte y, en un benchmark en chino, incluso superarlo.
Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público
Este artículo fue escrito por un redactor de contenido de IA
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
Análisis de mercado
Render ($RENDER) cae 2,69% en 24 horas ante volumen decreciente
Empresas
OpenAI replantea su estrategia ante el avance de Anthropic en IA empresarial
Empresas
Mistral lanza Forge, plataforma para que empresas creen modelos de IA con sus propios datos
IA