Poolside abre Laguna XS.2 y revela cómo entrenó sus nuevos modelos de IA para código agéntico

𝕏

Hace 48 segundos

Por Canuto

Poolside presentó Laguna M.1 y Laguna XS.2, dos modelos de IA centrados en programación agéntica y trabajo de largo horizonte. La empresa no solo compartió métricas, sino también detalles de su infraestructura de entrenamiento, su uso de datos sintéticos, el optimizador Muon y un esquema de aprendizaje por refuerzo asíncrono diseñado para tareas complejas de ingeniería de software.
***

Poolside lanzó Laguna M.1, un modelo MoE de 225B parámetros totales con 23B activados, y Laguna XS.2, un MoE de 33B con 3B activados.
Laguna XS.2 es el primer modelo de Poolside con pesos abiertos y está disponible bajo licencia Apache 2.0.
La compañía detalló que ambos modelos fueron entrenados con más de 30T tokens y apoyados por datos sintéticos, Muon y RL agéntico asíncrono.

Poolside anunció el lanzamiento de Laguna M.1 y Laguna XS.2, los dos primeros integrantes de su familia Laguna, junto con el runtime que utiliza para entrenar y operar agentes. La compañía también habilitó dos experiencias de producto en vista previa y permitirá usar ambos modelos gratis por tiempo limitado mediante su API y a través de OpenRouter.

El movimiento destaca por dos razones. Primero, porque marca una apertura mayor de una firma que hasta ahora había priorizado clientes gubernamentales y del sector público. Segundo, porque Laguna XS.2 llega como su primera publicación con pesos abiertos, disponibles bajo licencia Apache 2.0.

La empresa explicó que ambos sistemas fueron diseñados como modelos de codificación agéntica para trabajo de largo horizonte. En lugar de enfocarse solo en respuestas breves o en llamadas a herramientas rígidamente predefinidas, Poolside sostiene que el verdadero salto llegará con agentes capaces de escribir y ejecutar software, componer acciones y construir sus propios sistemas para interactuar con el mundo.

Según la publicación original de Poolside, este trabajo es el resultado de cerca de 60 personas en su organización de Applied Research, cubriendo arquitectura, datos, preentrenamiento y aprendizaje por refuerzo. La firma señaló que ahora está lista para mostrar al mercado el punto en el que se encuentra su desarrollo.

Los modelos y sus métricas

Laguna M.1 es, por ahora, el modelo más capaz de Poolside. Completó su preentrenamiento a finales del año pasado y funciona como base del resto de la familia. Se trata de un modelo Mixture of Experts, o MoE, con 225B parámetros totales y 23B parámetros activados.

Poolside indicó que este modelo fue entrenado totalmente in-house y desde cero sobre 30T tokens, utilizando 6.144 GPUs NVIDIA Hopper interconectadas. En las pruebas reportadas, Laguna M.1 obtuvo 46,9% en SWE-bench Pro y 40,7% en Terminal-Bench 2.0.

La firma también publicó una tabla comparativa frente a otros modelos. En SWE-bench Verified, Laguna M.1 registró 72,5, frente a 72,2 de Devstral 2, 73,8 de GLM-4.7, 79,0 de DeepSeek-V4-Flash y 76,2 de Qwen3.5. En SWE-bench Multilingual alcanzó 67,3, mientras que en Terminal-Bench 2.0 quedó apenas por debajo de GLM-4.7, con 40,7 frente a 41,0.

Laguna XS.2, por su parte, es descrito como el MoE de segunda generación de la empresa. Reúne 33B parámetros totales y 3B activados, también fue entrenado sobre 30T tokens y llega como el primer modelo de Poolside con pesos abiertos.

En las cifras divulgadas, Laguna XS.2 logró 44,5% en SWE-bench Pro y 30,1% en Terminal-Bench 2.0. La compañía remarcó que, dentro de su categoría de pesos, se trata de un modelo muy capaz para codificación agéntica, construido sobre lo aprendido con Laguna M.1 en datos, sintéticos y RL.

La comparación con otros modelos pequeños también fue parte central del anuncio. En SWE-bench Verified, XS.2 marcó 68,2, por encima de Devstral Small 2 con 68,0 y de Gemma 4 con 52,0, aunque por debajo de Qwen3.6 con 73,4 y de Claude Haiku 4.5 con 73,3. En Terminal-Bench 2.0, sin embargo, quedó detrás de varios rivales como Gemma 4 con 42,9 y Qwen3.6 con 51,5.

Poolside precisó que el benchmarking de ambos modelos se hizo con el Harbor Framework del Laude Institute y su propio agent harness, con un máximo de 500 pasos y ejecución aislada con 8 GB RAM y 2 CPUs, salvo Terminal-Bench 2.0, que usó 48 GB RAM y 32 CPUs. Los parámetros de muestreo fueron temperature=0.7 y top_k=20.

Pesos abiertos y una apuesta por el ecosistema

La apertura de Laguna XS.2 representa un cambio importante para la empresa. Poolside recordó que hasta ahora había trabajado sobre todo para entornos de alta seguridad, incluidos despliegues on-prem y air-gapped, un segmento donde servir modelos frontier resulta especialmente complejo.

Aun así, la compañía afirmó que cree que Occidente necesita modelos sólidos con pesos abiertos y que quiere contribuir a ese ecosistema. Bajo esa lógica, aseguró que la forma más rápida de mejorar sus sistemas es permitir que terceros participen en su construcción y evaluación.

Poolside señaló que quienes quieran hacer fine-tune, cuantizar o servir el modelo podrán hacerlo libremente con los pesos de Laguna XS.2. También adelantó que publicará pronto Laguna XS.2-base y que llevará el modelo a más frameworks líderes en las próximas semanas con apoyo de socios y de la comunidad.

Además de OpenRouter, la empresa mencionó soporte en Ollama y destacó su trabajo con NVIDIA. Todos los aspectos de la serie Laguna, desde la curación de datos hasta el postentrenamiento, se realizaron en hardware del fabricante, y Laguna XS.2 es compatible con NVIDIA TensorRT-LLM desde el primer día.

La firma también informó que ofrecerá una versión NVFP4 de Laguna XS.2, con la promesa de un rendimiento sólido sobre la arquitectura NVIDIA Blackwell. Ese detalle refuerza el interés de Poolside por facilitar despliegues prácticos y eficientes para usuarios avanzados.

Cómo construyó Poolside la familia Laguna

Poolside aseguró que entrena todos sus modelos desde cero. Eso incluye su propio trabajo de datos, su base de código de entrenamiento llamada Titan y su propia infraestructura de agent RL. Según la empresa, la serie Laguna llevó ese stack a sus límites en tres frentes: pipeline de datos, eficiencia del optimizador Muon y un esquema async on-policy RL.

En materia de datos, tanto Laguna M.1 como XS.2 fueron entrenados con más de 30T tokens. La empresa indicó que alcanzar esa escala exigió empujar al máximo la generación, procesamiento, curación y mezcla de datos.

Sobre datos web a gran escala, Poolside dijo que trata la curación como una optimización conjunta de calidad y diversidad. La firma usa una señal continua y multidimensional para puntuar el contenido, pero evita quedarse solo con los datos de mayor calidad, porque estos tienden a sesgarse hacia STEM y razonamiento.

Por eso, retiene también porciones de buckets de calidad media y baja para preservar diversidad, un factor que considera crítico para la generalización. Según explicó, frente a pipelines enfocados en precisión para horizontes cortos, este enfoque produce cerca de 2 veces más tokens únicos manteniendo el rendimiento.

La empresa también mencionó un análisis de deduplicación detallado que, según sus resultados, confirma la hipótesis de FineWeb de que la deduplicación global elimina de forma desproporcionada datos de alta calidad. Al igualar la distribución de calidad entre deduplicación global y por snapshot, aseguró haber reducido aún más la brecha en rendimiento downstream.

En cuanto a datos sintéticos, Poolside indicó que estos complementan la mezcla de entrenamiento donde los datos web naturales son más difíciles de controlar. En Laguna XS.2 representan cerca del 13% de la mezcla final a lo largo de todas las etapas de preentrenamiento.

La serie Laguna usó aproximadamente 4,4T o más tokens sintéticos. La compañía explicó que su enfoque va desde generación muy dependiente de seeds hasta pipelines más estructurados que extraen características, recomponen relaciones e intentan hacer explícito razonamiento implícito.

También destacó que esos datos sintéticos no se limitaron a STEM y código. Según la empresa, se aplicaron a una mezcla más amplia para expandir cobertura sin perder densidad de señal fundamentada, integrándose de forma más consistente a lo largo del entrenamiento.

Otro punto técnico importante fue AutoMixer, un framework de automixing para explorar y optimizar mezclas de datos de preentrenamiento. En lugar de depender de heurísticas manuales, cada ejecución entrena alrededor de 60 modelos proxy con distintas combinaciones y mide su rendimiento en capacidades clave como código, matemáticas, STEM y sentido común.

A partir de esos resultados, Poolside ajusta regresores sustitutos que estiman cómo cambian las métricas downstream cuando se alteran las proporciones del dataset. La empresa afirmó que, al escalar este proceso a un modelo mayor y a un horizonte más largo, obtuvo ganancias sustanciales en código y matemáticas sin comprometer la generalización en benchmarks held-out.

Muon, RL asíncrono y un runtime para agentes

En todas las etapas de entrenamiento de Laguna XS.2 y Laguna M.1, Poolside utilizó una implementación distribuida interna del optimizador Muon. En sus ablaciones iniciales de preentrenamiento, la firma dijo haber alcanzado la misma training loss que una baseline AdamW en cerca de 15% menos pasos.

La empresa añadió que Muon aportó mejoras absolutas grandes en evaluación sobre el modelo final y permitió transferencia de learning rate entre escalas de modelo. Como contracara, reconoció que Muon añade una sobrecarga computacional considerable, que fue mitigada distribuyendo el cómputo entre ranks.

Gracias a esa implementación, Poolside afirmó que durante el preentrenamiento de Laguna M.1 la sobrecarga del optimizador fue inferior al 1% del tiempo del paso de entrenamiento. También destacó una ventaja de memoria frente a AdamW, ya que Muon requiere un solo estado por parámetro en lugar de dos.

La compañía explicó además que ejecuta comprobaciones periódicas de hash sobre los pesos del modelo para garantizar que las réplicas mantengan exactamente los mismos pesos. Estas verificaciones buscan detectar desde silent data corruption en GPUs defectuosas hasta errores de comunicación o divergencia entre réplicas.

En la parte de aprendizaje por refuerzo, Poolside desarrolló un sistema de RL online totalmente asíncrono que incorpora su harness agéntico dentro del bucle de entrenamiento. El objetivo es entrenar modelos que sobresalgan en tareas de largo horizonte relacionadas con ingeniería de software, terminal y razonamiento con herramientas.

El flujo general consiste en que el trainer publica un nuevo checkpoint, este se despliega en el clúster de inferencia, los actores ejecutan tareas en contenedores aislados usando el binario de agente de producción, las trayectorias se puntúan y filtran, y luego se escriben en tablas Iceberg para que el trainer consuma los registros y produzca el siguiente checkpoint.

Poolside sostuvo que la configuración totalmente asíncrona evita que las GPUs queden inactivas y reduce el sesgo contra trayectorias largas. Para sincronizar checkpoints entre entrenamiento e inferencia, la empresa desarrolló un esquema personalizado de transferencia de pesos sobre GPUDirect RDMA.

De acuerdo con la compañía, en Laguna M.1 puede transferir pesos BF16 en menos de 5 segundos entre nodos de entrenamiento e inferencia. También indicó que la inferencia puede ejecutar pesos del modelo y KV cache en FP8, incluso cuando el entrenamiento se mantiene en BF16.

Para entrenar de forma estable en ese régimen parcialmente off-policy, Poolside usa una variante del algoritmo CISPO. La empresa afirmó que sus corridas de RL mantienen estabilidad y mejoras continuas durante muchos días de entrenamiento, sin requerir técnicas adicionales como regularización de entropía.

Junto con los modelos, Poolside también publicó pool, su agent harness, como vista previa de investigación. Según la firma, es el mismo entorno que usa internamente para el entrenamiento y la evaluación de agent RL, lo que refleja su idea de que modelos y agentes deben verse y utilizarse en conjunto a medida que la distancia entre ambos se reduce.

La empresa indicó que quienes desarrollen sobre estos modelos en startups, instituciones o universidades pueden solicitar límites de tasa más altos o incluso acceso a los pesos de Laguna M.1. También adelantó que está en preparación un informe técnico dedicado a Laguna XS.2.

Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín

𝕏

USDT	Tether USDt	-0,02%	$108,77 mmd
USDC	USDC	-0,03%	$51,31 mmd
BTC	Bitcoin	-0,75%	$32,62 mmd
ETH	Ethereum	0,15%	$12,87 mmd
SOL	Solana	-0,5%	$3,24 mmd
XRP	XRP	-0,75%	$1,82 mmd
DOGE	Dogecoin	1,64%	$1,72 mmd
BNB	BNB	-0,01%	$1,24 mmd
USD1	World Liberty Financial USD	-0,0%	$0,955 584 mmd
TRX	TRON	-0,94%	$0,602 88 mmd

H	Humanity Protocol	28,07%	$0,180 963
PI	Pi	5,8%	$0,192 076
PENGU	Pudgy Penguins	5,48%	$0,010 319
币安人生	币安人生	4,39%	$0,380 786
PUMP	Pump.fun	4,14%	$0,001 812
TAO	Bittensor	4,08%	$256,3
STABLE	Stable	3,94%	$0,036 458
XTZ	Tezos	3,88%	$0,385 073
JST	JUST	2,2%	$0,083 981
WLFI	World Liberty Financial	2,17%	$0,073 845

M	MemeCore	-13,65%	$3,37
CHZ	Chiliz	-7,63%	$0,045 632
DEXE	DeXe	-6,87%	$13,3
ZEC	Zcash	-4,93%	$335,05
HYPE	Hyperliquid	-3,97%	$39,95
ALGO	Algorand	-3,57%	$0,112 087
FET	Artificial Superintelligence Alliance	-3,51%	$0,198 033
NIGHT	Midnight	-2,04%	$0,034 197
VVV	Venice Token	-1,97%	$8,78
XAUt	Tether Gold	-1,81%	$4.589,39

Poolside abre Laguna XS.2 y revela cómo entrenó sus nuevos modelos de IA para código agéntico

Los modelos y sus métricas

Pesos abiertos y una apuesta por el ecosistema

Cómo construyó Poolside la familia Laguna

Muon, RL asíncrono y un runtime para agentes

Suscríbete a nuestro boletín

Artículos Relacionados

Apple prepara una renovación con IA para edición de fotos en iPhone, iPad y Mac

OpenAI afirma que la IA ya pasó de fallar en matemáticas a resolver problemas de nivel investigación

OpenAI llega a AWS tras romper la exclusividad con Microsoft

Google amplía acceso del Pentágono a su IA tras el rechazo de Anthropic