Un análisis independiente de Appen concluye que el kernel Sparse Self-Attention de Subquadratic puede escalar linealmente en contextos extremos, con una ventaja de 56,2× frente a FlashAttention-2 en 1 millón de tokens, mientras mantiene resultados sólidos en recuperación de largo contexto y en SWE-Bench Verified.
***
- Appen midió una latencia de 381 ms para SSA en 1 millón de tokens, frente a 21,4 segundos para FlashAttention-2.
- El informe reporta una reducción de FLOPs de 62,8× en 1 millón de tokens y un comportamiento cercano a escalado lineal.
- En calidad, Subquadratic obtuvo 86,2% en MRCR a 1.048.576 tokens y 81,8% en SWE-Bench Verified con razonamiento extendido.
🚀 Subquadratic supera a FlashAttention-2 en velocidad 📈
Informe de Appen revela que su kernel Sparse Self-Attention alcanza 381 ms en 1 millón de tokens.
FlashAttention-2 tarda 21,4 segundos.
Reducción de FLOPs de 62,8×.
Mantiene resultados altos en calidad y… pic.twitter.com/F8cMcJR3lo
— Diario฿itcoin (@DiarioBitcoin) May 14, 2026
El costo computacional de los modelos de lenguaje sigue siendo uno de los mayores cuellos de botella de la industria de la IA. En especial, cuando se trabaja con ventanas de contexto muy extensas, la atención tradicional de los transformers se vuelve cada vez más costosa porque compara cada token con todos los demás. Ese crecimiento cuadrático, expresado como O(n²), ha limitado durante años lo que resulta viable en producción.
En ese contexto, Subquadratic presentó una propuesta ambiciosa: reemplazar la atención densa completa por un mecanismo de atención propia dispersa, o Sparse Self-Attention, conocido como SSA. La promesa es relevante porque plantea un cambio estructural en el costo del cómputo, pasando de una curva cuadrática a una lineal a medida que crece la longitud del contexto.
Ahora, un informe técnico publicado por Appen el 11 de mayo de 2026 concluye que esa afirmación sí se sostiene en varias pruebas independientes. El documento, titulado Benchmarking Subquadratic’s latest model & SSA Kernel, fue elaborado por Sergio Bruccoleri y Jeanine Sinanan-Singh, y evaluó eficiencia, recuperación en contexto largo e inteligencia de código bajo condiciones cercanas a despliegues reales.
Qué se midió y por qué importa
Para entender la relevancia del resultado, conviene recordar el problema base. En un transformer estándar, duplicar la longitud del contexto no solo duplica el trabajo. Lo cuadruplica. Eso hace que pasar de 128K a 1 millón de tokens dispare el cómputo a niveles que, en muchos casos, quedan fuera del alcance práctico para sistemas de producción.
Subquadratic sostiene que su kernel SSA evita esa explosión de costos mediante una pasada de enrutamiento disperso aprendido. En vez de atender a todos los pares de tokens, el sistema selecciona aquellos que considera más relevantes y concentra allí el cómputo. Según la hipótesis arquitectónica, eso permite un escalado lineal, donde duplicar el contexto equivale a duplicar el trabajo, no a cuadruplicarlo.
Appen evaluó esa premisa con pruebas de latencia end-to-end en hardware NVIDIA B200, usando CUDA 13.0, PyTorch 2.11.0 y precisión bfloat16. Los resultados se calcularon como el promedio de 5 ejecuciones cronometradas, luego de 3 iteraciones de calentamiento. El comparativo principal se realizó contra FlashAttention-2, una implementación ampliamente usada para acelerar atención densa.
De acuerdo con el informe, FlashAttention-2 siguió de cerca la curva teórica O(n²), mientras que SSA mostró un comportamiento lineal casi exacto. Appen indicó que, al aumentar el contexto 8×, la latencia de SSA creció 7,95×, una correspondencia que calificó como casi perfecta con el comportamiento O(n).
La brecha de rendimiento en 1 millón de tokens
El dato más llamativo del reporte aparece en la prueba con 1 millón de tokens. En ese escenario, SSA completó la pasada en 381 ms. La ejecución equivalente con FlashAttention-2 tardó 21,4 segundos. La diferencia en tiempo de pared fue de 56,2×, una brecha que Appen describió como la consecuencia natural de dos arquitecturas que divergen a lo largo de curvas de complejidad distintas.
El informe subraya que esa aceleración no sería un resultado aislado ni elegido de forma conveniente. Según el análisis, la ventaja se amplía de manera predecible conforme aumenta el número de tokens. La idea central es que el beneficio no depende solo de optimizaciones de implementación, sino de una diferencia estructural en la forma de computar atención.
Para evitar que el tiempo de pared quedara condicionado por factores del hardware, Appen también midió el problema desde la óptica de FLOPs. Ese dato busca estimar el trabajo computacional real de la arquitectura. Usando la fórmula estándar de FlashAttention y MLPerf, y validando contra mediciones de torch.profiler, el informe reportó una coincidencia entre teoría y medición dentro de un margen de 0,7% a 3,9% en todas las longitudes probadas.
En FLOPs, la reducción también fue marcada. A 128K tokens, FlashAttention-2 registró 142,1 TFLOP frente a 18,1 TFLOP de SSA, una reducción de 7,9×. A 256K tokens, el salto fue de 568,4 TFLOP contra 36,1 TFLOP, o 15,7× menos. A 512K tokens, 2.273,8 TFLOP frente a 72,3 TFLOP, una reducción de 31,5×. Finalmente, en 1 millón de tokens, la atención densa alcanzó 9.095,2 TFLOP frente a 144,9 TFLOP de SSA, equivalente a 62,8× menos FLOPs.
Ese comportamiento, según el documento, refuerza que la linealidad de SSA no solo aparece en la latencia, sino también en el cómputo subyacente. Cada duplicación del contexto duplicó aproximadamente los FLOPs de SSA, una señal consistente con el planteamiento arquitectónico del sistema.
La prueba decisiva: eficiencia sin perder calidad
Una de las objeciones tradicionales a los sistemas de atención dispersa es que suelen ganar eficiencia a costa de precisión. Por eso, el informe dedicó una parte importante a medir si el ahorro de cómputo venía acompañado de una degradación fuerte en recuperación de información o razonamiento complejo.
En el benchmark RULER, que trabaja con 131.072 tokens, Subquadratic fue evaluado en tareas de preguntas y respuestas de uno y varios saltos, extracción de palabras, seguimiento de variables y recuperación de agujas múltiples. Para las tareas de preguntas y extracción se utilizó a Claude Opus 4.6 como juez LLM, una metodología orientada a capturar respuestas semánticamente correctas que la coincidencia exacta de cadenas podría penalizar.
El resultado global de QA y extracción fue de 95,6%. En detalle, obtuvo 100,0% en qa_1, 100,0% en qa_2, 97,4% en cwe y 98,0% en fwe. También logró 100,0% en niah_single_1, niah_single_2 y niah_single_3, además de 100,0% en niah_multivalue. En las variantes multiclave, registró 96,0% con 2 claves, 83,0% con 4 claves y 68,0% con 8 claves.
El informe interpreta ese patrón como una señal de recuperación confiable en tareas estructuradas y de aguja única a 128K tokens. La caída en multiclave fue presentada como una degradación esperable a medida que aumenta el número de objetivos simultáneos. Appen señaló que ese fenómeno ya está documentado en el propio trabajo de RULER y que no sería una limitación exclusiva de SSA.
MRCR y SWE-Bench Verified elevan la exigencia
La evaluación más dura en recuperación fue MRCR, abreviatura de Multi-needle Retrieval in Context at Range. Allí, Appen probó exclusivamente el nivel de 8 agujas, descrito como el más difícil, dentro del mayor grupo de entradas del conjunto de datos, entre 524.288 y 1.048.576 tokens. Esa escala de contexto es, precisamente, la que suele dejar fuera de juego a muchas implementaciones con atención densa.
En esa prueba, Subquadratic obtuvo 86,2% sobre 100 muestras con una ventana de 1.048.576 tokens. El reporte destaca que se trata de un resultado sustancial dado el nivel de dificultad. También describe un patrón de error bimodal: el modelo o recupera correctamente las ocho agujas o falla por completo, lo que sugiere una conducta de recuperación de todo o nada.
La tercera pata del análisis fue SWE-Bench Verified, una evaluación con incidencias reales de GitHub procedentes de repositorios Python de código abierto seleccionados. La meta no era responder preguntas, sino producir un parche que resolviera la incidencia y superara todas las pruebas existentes sin introducir regresiones. En este benchmark no existe crédito parcial.
Con el razonamiento extendido activado, Subquadratic alcanzó una tasa de resolución de 81,8% en SWE-Bench Verified. Según el informe, ese nivel lo ubicó entre los mejores desempeños observados en el benchmark al momento de la evaluación. En conjunto con los resultados de eficiencia, Appen concluyó que la arquitectura dispersa no mostró una penalización evidente de calidad en tareas complejas de razonamiento de varios pasos.
Metodología, independencia y alcance del informe
Appen remarcó que la evaluación se realizó con independencia operativa. Para los benchmarks de desempeño del modelo, el acceso se limitó a endpoints de API y claves de autenticación de Subquadratic. La empresa evaluadora indicó que no recibió por adelantado pesos del modelo, datos de entrenamiento, configuraciones de ajuste fino ni etiquetas de referencia de los benchmarks.
En cambio, para las mediciones de tiempo de pared y FLOPs, sí obtuvo acceso al código clave del algoritmo, realizó una revisión técnica y pudo ejecutar pruebas lado a lado. El informe sostiene que, bajo ese esquema, las mediciones reflejan un rendimiento auténtico y no influido del modelo. La evaluación fue dirigida por Jeanine Sinanan-Singh, directora de investigación en GenAI, y por Sergio Bruccoleri, vicepresidente de operaciones.
El documento completo incluye datos de tiempo por ejecución, validación detallada con torch.profiler, desglose completo de las 13 tareas de RULER con 100 muestras cada una, resultados por muestra en MRCR, patrón de error a 1 millón de tokens, aprobación o rechazo por caso en SWE-Bench Verified y una atestación firmada de independencia metodológica.
Más allá de la competencia puntual entre kernels de atención, el trasfondo de esta evaluación es más amplio. Si una arquitectura capaz de escalar linealmente en ventanas de contexto extremas mantiene niveles útiles de recuperación y razonamiento, el debate deja de ser solo técnico. Pasa a tocar el diseño mismo de los modelos de próxima generación, en un momento en que la industria busca agentes capaces de trabajar con bases documentales, repositorios de código y flujos complejos que exceden por mucho los límites tradicionales de contexto.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
Bitcoin
Claude ayuda a recuperar BTC 5 bloqueados por 11 años y valuados en casi USD $400.000
AltCoins
Fet cae 7,8% y rompe soportes clave en jornada volátil
China
Estados Unidos lidera la carrera de la IA por nube, datos y comercialización
Binance