Kimi presentó K2.6, su nuevo modelo open-source orientado a codificación, agentes autónomos y tareas de largo horizonte. La compañía asegura que el sistema mejora frente a K2.5 en benchmarks clave, puede sostener ejecuciones de más de 12 horas y coordinar hasta 300 subagentes en paralelo para completar desde optimizaciones de software hasta documentos, sitios web y presentaciones.
***
- Kimi K2.6 ya está disponible en Kimi.com, la app de Kimi, la API y Kimi Code.
- Según la compañía, el modelo mejoró en codificación de largo horizonte, uso de herramientas y tareas agentivas frente a K2.5.
- La arquitectura Agent Swarm de K2.6 puede escalar hasta 300 subagentes y 4.000 pasos coordinados en una sola ejecución.
Kimi anunció el lanzamiento open-source de Kimi K2.6, un nuevo modelo de inteligencia artificial (IA) enfocado en codificación avanzada, ejecución de largo horizonte y sistemas de agentes.
La empresa sostiene que esta versión representa un salto frente a Kimi K2.5, especialmente en tareas donde el modelo debe mantener contexto durante horas, coordinar herramientas externas y resolver problemas complejos de ingeniería.
El lanzamiento ya está disponible a través de Kimi.com, la aplicación de Kimi, la API y Kimi Code. En su presentación técnica, la firma destacó resultados en benchmarks de agentes generales, codificación y agentes visuales, donde K2.6 compite con modelos cerrados como GPT-5.4, Claude Opus 4.6 y Gemini 3.1 Pro.
Para lectores menos familiarizados con este campo, los modelos “agentivos” no se limitan a responder preguntas. También pueden planificar tareas, llamar herramientas, navegar por la web, ejecutar código, manipular archivos y dividir un objetivo amplio en varios pasos coordinados. Ese enfoque es clave para usos empresariales, automatización y desarrollo de software asistido por IA.
La empresa explicó que K2.6 fue diseñado para sobresalir en ese tipo de flujos de trabajo. En la categoría de agentes generales, reportó resultados de 54,0 en HLE-Full con herramientas, 83,2 en BrowseComp, 92,5 en DeepSearchQA por f1-score, 50,0 en Toolathlon y 73,1 en OSWorld-Verified. En codificación, informó 66,7 en Terminal-Bench 2.0, 58,6 en SWE-Bench Pro y 76,7 en SWE-Bench Multilingual.
Codificación de largo horizonte y mejoras frente a K2.5
Uno de los ejes centrales del anuncio es la llamada “codificación de largo horizonte”. En términos prácticos, esto describe la capacidad de un modelo para trabajar durante sesiones extensas sin perder coherencia arquitectónica, recordar decisiones previas ni degradar su desempeño al pasar por múltiples iteraciones, herramientas y archivos.
Kimi afirmó que K2.6 mostró una generalización sólida entre lenguajes como Rust, Go y Python, además de tareas que van desde front-end hasta devops y optimización de rendimiento. En su benchmark interno Kimi Code Bench, la compañía aseguró que el nuevo modelo registró mejoras significativas frente a K2.5 en tareas complejas de punta a punta.
Como ejemplo, la firma señaló que K2.6 descargó e implementó localmente el modelo Qwen3.5-0.8B en una Mac. Después optimizó la inferencia del sistema en Zig, un lenguaje especializado, y durante más de 4.000 llamadas a herramientas, más de 12 horas de ejecución continua y 14 iteraciones, elevó el rendimiento desde cerca de 15 hasta unos 193 tokens por segundo.
De acuerdo con los datos publicados, ese resultado dejó al sistema aproximadamente 20% por encima de LM Studio. La empresa presentó el caso como una muestra de generalización fuera de distribución, es decir, la capacidad del modelo para rendir bien en escenarios menos habituales o alejados de los datos más comunes de entrenamiento.
Otro ejemplo citado fue la revisión autónoma de exchange-core, un motor financiero open-source de emparejamiento con ocho años de antigüedad. Durante una corrida de 13 horas, K2.6 pasó por 12 estrategias de optimización, hizo más de 1.000 llamadas a herramientas y modificó con precisión más de 4.000 líneas de código.
En esa tarea, Kimi indicó que el modelo analizó gráficos de CPU y asignación tipo flame graph para detectar cuellos de botella ocultos. Luego reconfiguró la topología principal de hilos de 4ME+2RE a 2ME+1RE. Pese a que el motor ya operaba cerca de sus límites, la compañía afirmó que K2.6 logró un salto de 185% en rendimiento medio, de 0,43 a 1,24 MT/s, y una ganancia de 133% en rendimiento máximo, de 1,23 a 2,86 MT/s.
Respaldo de socios y rendimiento en benchmarks
La presentación incluyó comentarios de socios de pruebas beta y empresas que evaluaron el modelo en entornos reales. Las citas coinciden en varios puntos: mejor seguimiento de instrucciones, más estabilidad en sesiones largas, menos errores de codificación y mayor calidad en el uso de herramientas frente a K2.5.
Entre esos testimonios, CodeBuddy afirmó que la precisión en generación de código aumentó 12%, la estabilidad en contexto largo mejoró 18% y la tasa de éxito en invocación de herramientas llegó a 96,60%. Otros evaluadores reportaron alzas de 15% en benchmarks propios, mejoras de más de 50% en pruebas centradas en Next.js y una mayor proactividad del modelo para completar contexto sin interrumpir al usuario.
Más allá de las declaraciones externas, la tabla comparativa publicada por Kimi sugiere un posicionamiento competitivo. En HLE-Full con herramientas, K2.6 obtuvo 54,0 frente a 52,1 de GPT-5.4, 53,0 de Claude Opus 4.6 y 51,4 de Gemini 3.1 Pro. En DeepSearchQA por accuracy marcó 83,0, por encima de 63,7, 80,6 y 60,2, respectivamente.
En codificación, el modelo registró 58,6 en SWE-Bench Pro, por delante de 57,7 de GPT-5.4, 53,4 de Claude y 54,2 de Gemini. También alcanzó 80,2 en SWE-Bench Verified, cerca de 80,8 de Claude y 80,6 de Gemini. En Terminal-Bench 2.0 reportó 66,7, por encima de 65,4 de GPT-5.4 y Claude, aunque por debajo de 68,5 de Gemini.
El panorama cambia en razonamiento puro y visión, donde K2.6 sigue siendo fuerte pero no domina todas las pruebas. Por ejemplo, obtuvo 34,7 en HLE-Full sin herramientas, detrás de GPT-5.4, Claude y Gemini. Aun así, mostró niveles altos en AIME 2026 con 96,4, GPQA-Diamond con 90,5 y V* con Python con 96,9.
Diseño, front-end y flujos full-stack sencillos
Kimi también presentó K2.6 como una herramienta capaz de transformar prompts simples en interfaces completas. Según la compañía, el modelo puede generar diseños estructurados, secciones hero, elementos interactivos, animaciones y recursos visuales apoyándose en herramientas de imagen y video.
La empresa señaló que ese rendimiento no se limita al front-end estático. En casos ligeros, K2.6 puede extenderse a flujos full-stack con autenticación, interacción de usuario y operaciones básicas de base de datos, como registro de transacciones o gestión de sesiones.
Para medir esta capacidad, el equipo creó un benchmark interno llamado Kimi Design Bench. Está dividido en cuatro categorías: tareas con entrada visual, construcción de landing pages, desarrollo de aplicaciones full-stack y programación creativa general. En comparación con Google AI Studio, la firma dijo que K2.6 mostró resultados prometedores en estas áreas.
La importancia de este punto va más allá del diseño visual. En el mercado actual, buena parte del valor de los asistentes de IA para empresas y desarrolladores está en reducir el tiempo entre una idea y un prototipo funcional. Si un modelo puede escribir código, producir recursos visuales y dejar una experiencia lista para pruebas, su utilidad comercial aumenta con rapidez.
Enjambres de agentes y trabajo autónomo prolongado
Otro de los anuncios más llamativos fue la evolución de Kimi K2.6 Agent Swarm. La compañía define este enfoque como una arquitectura donde una tarea se divide dinámicamente en subtareas heterogéneas, ejecutadas en paralelo por agentes auto-creados y especializados por dominio.
Frente a la vista previa de investigación de K2.5 Agent Swarm, la nueva versión escala hasta 300 subagentes y 4.000 pasos coordinados al mismo tiempo. Eso representa un avance importante sobre los 100 subagentes y 1.500 pasos atribuidos a K2.5. Según Kimi, esta paralelización reduce la latencia total, eleva la calidad de salida y amplía el rango de operaciones posibles.
La empresa mostró varios ejemplos de uso. En uno de ellos, el sistema diseñó y ejecutó cinco estrategias cuantitativas sobre 100 activos globales del sector de semiconductores, produjo hojas de cálculo detalladas y una presentación ejecutiva al estilo McKinsey, además de convertir ese formato en una skill reutilizable.
En otro caso, transformó un artículo de astrofísica en una skill académica reutilizable y luego generó un paper de investigación de 40 páginas y 7.000 palabras, un conjunto de datos estructurado con más de 20.000 entradas y 14 gráficos de nivel astronómico. También creó 100 subagentes para emparejar 100 puestos relevantes en California con base en un CV subido, entregando oportunidades estructuradas y 100 currículums personalizados.
Un ejemplo adicional consistió en identificar 30 tiendas minoristas en Los Ángeles sin sitio web oficial a partir de Google Maps y generar para cada una landing pages de alta conversión. Kimi presentó estos casos como evidencia de descubrimiento de oportunidades más ejecución autónoma de extremo a extremo.
La compañía añadió que K2.6 puede convertir archivos como PDF, hojas de cálculo, diapositivas y documentos Word en “Skills”. En esencia, esto significa capturar la estructura y el estilo de un documento para replicarlos luego en tareas futuras con calidad y formato similares.
Agentes proactivos y Claw Groups
En la parte final del anuncio, Kimi puso el foco en los agentes proactivos, es decir, sistemas que operan de forma continua en segundo plano y no solo reaccionan a una orden puntual. La firma mencionó compatibilidad y buen desempeño con entornos como OpenClaw y Hermes, donde la IA debe manejar horarios, ejecutar código y orquestar operaciones en múltiples aplicaciones.
Como ejemplo interno, el equipo de infraestructura de RL utilizó un agente respaldado por K2.6 que operó de forma autónoma durante cinco días. Durante ese período gestionó monitoreo, respuesta a incidentes y operaciones del sistema. La empresa indicó que esto mostró contexto persistente, manejo de tareas multihilo y ejecución completa desde la alerta hasta la resolución.
La firma también presentó Claw Groups como vista previa de investigación. Se trata de una extensión de la arquitectura Agent Swarm orientada a un ecosistema abierto y heterogéneo, donde múltiples agentes y humanos colaboran en un mismo espacio operativo, incluso si corren distintos modelos, herramientas y memorias en portátiles, móviles o nube.
En esa configuración, K2.6 actúa como coordinador adaptativo. Asigna tareas según el perfil y las herramientas disponibles de cada agente, detecta fallos, reasigna subtareas y administra el ciclo de vida de los entregables hasta su validación y cierre. Internamente, la empresa dijo que ya usa Claw Groups para producción de contenido y campañas de lanzamiento con agentes especializados en demos, benchmarks, redes sociales y video.
La publicación técnica de Kimi subraya que el objetivo es ir más allá del modelo conversacional clásico. En vez de un usuario haciendo preguntas aisladas, la visión apunta a equipos híbridos donde humanos e IA colaboran como socios y donde las fronteras entre “mi agente”, “tu agente” y “nuestro equipo” se vuelven más difusas.
El lanzamiento de K2.6 llega en un momento de fuerte competencia entre modelos abiertos y cerrados. Aunque muchas de sus métricas provienen de pruebas internas o reevaluaciones bajo condiciones propias, el anuncio deja claro que la carrera ya no se centra solo en responder mejor, sino en sostener trabajo útil, coordinado y autónomo durante muchas horas.
Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público
Este artículo fue escrito por un redactor de contenido de IA
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
Empresas
Google arma un equipo de choque para recuperar terreno en IA de programación
DAOs
Kelp DAO señala a LayerZero como culpable por el exploit de rsETH de USD $290 millones
Negocios
WhatsApp prueba una suscripción paga con personalización y pocos cambios funcionales
Empresas