Por Canuto  

Un nuevo benchmark de Sakana AI traslada a los modelos de lenguaje desde tareas de conversación hacia la gestión empresarial de largo plazo. CoffeeBench simula 90 días de competencia entre agricultores, tostadores y minoristas, y muestra que la rentabilidad de un agente de IA depende menos de hablar mucho y más de negociar, actuar a tiempo y no quedarse paralizado.
***

  • CoffeeBench evalúa durante 90 días a agentes LLM dentro de una cadena de suministro del café con seis empresas autónomas.
  • Los resultados muestran diferencias marcadas entre modelos, con mejor desempeño para agentes más proactivos en comunicación y negociación.
  • Claude Haiku 4.5 exhibió un modo de fallo llamativo: seguía razonando, pero dejó de ejecutar acciones económicas reales.


La evaluación de agentes de inteligencia artificial ya no se limita a responder preguntas, programar o navegar por la web. Un nuevo trabajo propone medir su desempeño en un terreno más cercano al mundo real: dirigir empresas que deben sobrevivir, negociar y generar beneficios durante meses.

Ese es el objetivo de CoffeeBench: Benchmarking Long-Horizon LLM Agents in Heterogeneous Multi-Agent Economies, desarrollado por Issa Sugiura, Daichi Hattori, Kazuo Araragi, Keita Ogawa, Shota Onose, Taro Makino, Teppei Usuki y Takashi Ishida. El estudio presenta un banco de pruebas donde agentes LLM administran negocios dentro de una economía multiagente basada en la cadena de suministro del café.

La propuesta llega en un momento en que la industria tecnológica intenta averiguar si los modelos más avanzados pueden pasar de tareas puntuales a trabajos sostenidos en el tiempo. Eso implica planificar, mantener memoria operativa, reaccionar a cambios del entorno y coordinarse con otros agentes que persiguen intereses propios.

En este caso, la pregunta central no es si un modelo puede redactar un correo o resumir una hoja de cálculo. La pregunta es si puede operar como un tostador de café durante 90 días simulados, comprar insumos, vender producto, administrar efectivo y terminar con ingreso neto positivo.

Los resultados sugieren que sí, pero no todos los modelos lo hacen igual de bien. El trabajo encontró diferencias sustanciales tanto en los beneficios finales como en la conducta empresarial de cada sistema, desde estrategias activas de negociación hasta episodios de inacción prolongada.

Qué es CoffeeBench y por qué importa

CoffeeBench fue diseñado como una extensión multiagente de Vending-Bench, una línea previa de investigación centrada en evaluar si un agente LLM podía operar una máquina expendedora durante un período largo y generar ganancias. Según explica el estudio, esa línea evolucionó luego hacia escenarios más competitivos y realistas.

Entre esos antecedentes figuran Vending-Bench Arena, que introduce competencia entre múltiples agentes, y Project Vend, que lleva el experimento al mundo físico con una máquina expendedora instalada en una oficina. Sin embargo, esos entornos seguían limitados a un solo tipo de empresa.

La novedad de CoffeeBench es que abandona esa estructura simple y pasa a una economía con varios actores y roles distintos. En lugar de una sola máquina o una sola categoría de empresa, el benchmark simula una cadena B2B completa con agricultores, tostadores y minoristas.

La economía de CoffeeBench incluye dos agricultores, dos tostadores y dos minoristas, para un total de seis empresas. Cada una es operada por un agente LLM autónomo que busca maximizar el ingreso neto acumulado dentro de una simulación de 90 días.

Ese diseño importa porque se parece más a cómo funcionan las cadenas de suministro del mundo real. Las decisiones de un actor afectan a los demás, el flujo de caja condiciona las compras futuras, y la rentabilidad depende tanto de la ejecución individual como de la interacción con contrapartes.

Cómo funciona la simulación empresarial

En CoffeeBench, cada agente opera con un esquema ReAct e interactúa con el entorno mediante herramientas. Entre las funciones comunes están enviar mensajes a contrapartes, hacer pedidos y pagar facturas.

Además, cada tipo de empresa recibe herramientas específicas para su rol. Los agricultores usan produce_item() para producir granos de café, los tostadores emplean roast() para transformar granos verdes en producto tostado, y los minoristas utilizan set_retail_price() para fijar precios al consumidor.

Cuando un agente no tiene más tareas pendientes, llama a wait_for_next_day(). El día simulado solo avanza cuando todos los agentes han entrado en ese estado de espera.

Entre el cierre de una jornada y la apertura de la siguiente, el entorno ejecuta procesos automáticos. Allí se simulan ventas de consumidores a través de los minoristas, además de costos operativos, desperdicios y otros ajustes de negocio.

Ese detalle obliga a los agentes a pensar más allá del siguiente movimiento. Como hay costos fijos diarios, una empresa inactiva se vuelve gradualmente no rentable, de modo que los modelos deben equilibrar inventario, caja, relaciones comerciales y demanda futura para no quedar atrapados en pérdidas.

Los modelos evaluados y el objetivo del experimento

El estudio evaluó varios modelos en CoffeeBench, entre ellos GPT-5.5, Claude Opus 4.7, Claude Haiku 4.5, Gemini 3.1 Pro y Kimi K2.6. En cada corrida, el modelo analizado ocupó el papel de Tostador A.

Para mantener condiciones comparables, las otras cinco empresas de la economía fueron operadas por Claude Sonnet 4.6 como línea base fija. Así, los investigadores pudieron observar cómo cambiaba el resultado empresarial al sustituir únicamente al agente bajo evaluación.

Cada modelo fue ejecutado tres veces para reducir el efecto de la variabilidad entre corridas. Luego se promediaron los resultados usando como referencia el ingreso neto acumulado al final de los 90 días.

El trabajo también incluyó un agente pasivo como línea base adicional. Ese agente se limitó a llamar continuamente a wait_for_next_day(), sin realizar acciones de negocio de ningún tipo.

La presencia de esa línea base pasiva permite contextualizar los resultados. Superarla no equivale a gestionar una empresa de forma sobresaliente, pero sí sirve para mostrar que los LLM pueden ir más allá de la mera espera y tomar decisiones económicas activas dentro del entorno.

Qué resultados obtuvo CoffeeBench

Todos los modelos evaluados superaron al agente pasivo. Ese hallazgo sugiere que los agentes LLM ya pueden participar de manera efectiva en una economía simulada de varios actores, en vez de limitarse a observar el entorno.

Sin embargo, el desempeño estuvo lejos de ser uniforme. El estudio reportó diferencias sustanciales entre modelos, tanto en la trayectoria de beneficios a lo largo del tiempo como en el resultado final de ingreso neto.

La mayoría de los sistemas aumentó sus ganancias de forma sostenida durante la simulación. No obstante, Claude Haiku 4.5 terminó operando con pérdidas, convirtiéndose en el caso más débil del grupo.

El análisis de indicadores empresariales y del uso de herramientas también mostró contrastes relevantes. No bastó con hacer muchas llamadas al sistema ni con generar mucha actividad superficial.

Según el estudio, los mejores modelos compartieron un rasgo común: fueron más proactivos en la comunicación con agricultores y minoristas, y usaron sus acciones para perseguir objetivos ligados al beneficio, como negociar precios o concretar transacciones.

La conducta importa más que el volumen de acciones

Uno de los hallazgos más interesantes de CoffeeBench es que la rentabilidad no depende solo del número de intervenciones del agente. Importa más si esas intervenciones están alineadas con decisiones que mueven el negocio.

Los modelos de alto rendimiento enviaron mensajes con frecuencia tanto a proveedores como a clientes. Esa comunicación activa estuvo asociada con negociaciones de precios, promociones y otras acciones enfocadas en capturar margen o asegurar ventas.

Por contraste, los modelos de bajo rendimiento tendieron a comportarse de forma más pasiva. Hablaron menos con otros agentes y mostraron menos iniciativa para activar acuerdos que pudieran mejorar sus resultados.

El caso de Kimi K2.6 refuerza esa lectura. Aunque realizó un número de invocaciones de herramientas comparable al de los modelos más exitosos, no consiguió beneficios robustos.

Eso sugiere que el volumen de actividad puede ser engañoso si no se traduce en acciones relevantes para el negocio. El trabajo menciona como ejemplos de mayor impacto funciones como make_offer(), accept_offer() y la negociación de precios.

Gemini y el contraste entre gestión reactiva y proactiva

Gemini 3.1 Pro mostró un patrón de comportamiento diferente al de otros modelos destacados. En vez de iniciar tantas interacciones como GPT-5.5 o Claude Opus 4.7, envió menos mensajes salientes.

Aun así, el sistema leyó con frecuencia mensajes entrantes. Esa conducta apunta a un estilo de gestión más reactivo, donde el agente responde a movimientos de sus contrapartes en lugar de liderar la interacción comercial.

El matiz es importante porque amplía lo que puede medirse en este tipo de benchmark. CoffeeBench no solo produce un balance final de ganancias y pérdidas, sino que también deja observar estilos de gestión y toma de decisiones.

En otras palabras, dos modelos podrían acercarse en resultado financiero y aun así diferir en su lógica operativa. Uno podría abrir negociaciones de forma agresiva, mientras otro esperaría señales del mercado antes de responder.

Para investigadores y empresas, esa diferencia es valiosa. Si los agentes de IA van a incorporarse a sistemas productivos o comerciales, no solo importará cuánto ganan, sino cómo interactúan con clientes, proveedores y socios.

El modo de fallo de Claude Haiku 4.5

El caso más llamativo del estudio fue Claude Haiku 4.5. A mitad de la simulación, el agente dejó de involucrarse en actividad económica real y comenzó a emitir repetidamente la instrucción wait_for_next_day().

Esa conducta tuvo un efecto claro sobre el negocio. Como los costos fijos seguían acumulándose cada jornada, la empresa terminó en pérdidas por simple inacción.

Lo más interesante es que el problema no parecía ser falta de análisis interno. Al revisar las trazas de razonamiento, los autores observaron que el modelo seguía evaluando el contexto y formulando planes plausibles.

Entre esos planes, el agente reconocía oportunidades para obtener granos baratos de los agricultores y anticipaba posibles aumentos de demanda desde los minoristas. Pese a ello, una y otra vez elegía esperar en lugar de ejecutar acciones concretas.

El fenómeno apareció de forma consistente en las tres corridas de Claude Haiku 4.5 y no se observó en los demás modelos. Los autores plantean como posibles explicaciones efectos del contexto largo o una selección de acciones excesivamente conservadora, tal vez influida por preocupaciones implícitas sobre el presupuesto de tokens.

La prueba de estrés con incentivos de ingresos máximos

Además del escenario centrado en beneficio neto, los investigadores realizaron una prueba exploratoria con otro objetivo. En ese experimento, cambiaron el KPI principal de los agentes desde rentabilidad hacia ingresos.

También asignaron metas de ingresos que normalmente resultarían difíciles de alcanzar. Junto con ello, instruyeron de forma enfática a los agentes para lograr el objetivo “a toda costa”.

La motivación detrás de esa prueba tiene un fuerte componente de gobernanza. En empresas reales, una presión extrema por cumplir objetivos puede distorsionar la toma de decisiones y abrir la puerta a conductas inapropiadas.

El estudio menciona prácticas como transacciones circulares o acumulación de canal, utilizadas para inflar ingresos de manera artificial. En esta fase preliminar, los investigadores no observaron comportamientos colusorios de ese tipo.

Una explicación posible es que los agentes simplemente no detectaron que esas estrategias estaban disponibles. Aun así, los autores advierten que modelos más avanzados, con mejor coordinación y planificación multiagente, podrían descubrir por sí mismos tácticas indeseables en el futuro.

Por qué este benchmark puede importar más allá del café

A primera vista, CoffeeBench parece un experimento de nicho sobre empresas cafeteras simuladas. Pero su relevancia va más allá del producto usado en el escenario.

El benchmark funciona como una aproximación controlada a un problema más amplio: cómo se comportarán agentes de IA cuando deban actuar durante largos periodos dentro de economías compuestas por múltiples actores autónomos. Ese punto también interesa a sectores como logística, comercio digital y mercados automatizados.

Para audiencias cercanas a blockchain y cripto, el marco resulta especialmente sugerente. Las economías onchain, los protocolos DeFi, las DAOs y los sistemas de agentes coordinados comparten varios de esos desafíos, como incentivos, comunicación entre partes y riesgos de comportamiento emergente.

En ese contexto, evaluar solo precisión textual o capacidad de respuesta ya no parece suficiente. Si los agentes van a custodiar tesorerías, negociar liquidez o gestionar inventarios tokenizados, harán falta pruebas que capturen persistencia, coordinación y disciplina operativa.

La conclusión del estudio va en esa dirección. CoffeeBench, sostienen sus autores, busca ser un paso hacia la comprensión y el diseño de futuras sociedades donde agentes de IA participen activamente en la actividad económica.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín