Por Canuto  

Deepseek presenta ‘sparse attention’ en su modelo de IA de nueva generación.

***

  • La startup china lanzó DeepSeek-V3.1-Exp con la técnica “Sparse Attention” para procesar textos largos
  • Huawei apoyará con sus chips la actualización del modelo y se reducirán a la mitad los precios de sus herramientas
  • DeepSeek avanza en arquitecturas FP8 y BF16 para optimizar memoria y velocidad en aprendizaje automático

DeepSeek impulsa su siguiente fase de inteligencia artificial

La empresa emergente china DeepSeek presentó una actualización experimental de su modelo de inteligencia artificial, destacando su técnica “DeepSeek Sparse Attention” (DSA) como un paso intermedio hacia su arquitectura de próxima generación. La compañía, con sede en Hangzhou, publicó los detalles en su página de Hugging Face y calificó la versión como DeepSeek-V3.1-Exp.

El anuncio refuerza la reputación de DeepSeek como uno de los actores más innovadores en el panorama tecnológico chino. Su modelo R1 ya había sorprendido a Silicon Valley este año, y ahora la firma busca consolidar su ventaja mediante mejoras en eficiencia y costos para atraer a un público más amplio.

La nueva técnica DSA está diseñada para explorar y optimizar tanto el entrenamiento como la operación de modelos de IA. Esto apunta a mejorar la eficiencia cuando se procesan secuencias extensas de texto, un reto clave para sistemas de lenguaje de gran escala.

Además de su avance técnico, DeepSeek también anunció que reducirá a la mitad los precios de sus herramientas de software. Con esta medida, se suma a otras startups chinas que bajan costos para expandir su base de usuarios y fortalecer su presencia en el sector.

Alianza tecnológica con Huawei Technologies Co.

Huawei Technologies Co., líder en chips de IA en China, confirmó que sus productos respaldarán la última actualización del modelo de DeepSeek. Esta colaboración permite aprovechar hardware optimizado para IA y mejorar el rendimiento de los sistemas en escala.

El vínculo con Huawei demuestra la apuesta de DeepSeek por una integración estrecha con la cadena de suministro tecnológica china, fortaleciendo su capacidad para competir globalmente frente a rivales de Estados Unidos y Europa.

La sinergia entre software y hardware también favorece la adopción rápida de nuevas arquitecturas numéricas, que son cruciales para reducir consumo de memoria y acelerar cálculos en redes neuronales profundas.

Arquitecturas FP8 y BF16 para mayor eficiencia

DeepSeek destacó que las versiones más recientes de sus modelos soportan FP8 (Floating Point 8) y están trabajando en la compatibilidad con BF16 (Brain Floating Point 16). Estos formatos determinan cómo se almacenan y procesan los números dentro de los sistemas de IA.

El uso de FP8 permite ahorrar memoria y acelerar cálculos en comparación con formatos más grandes. Aunque menos preciso, se considera adecuado para múltiples tareas de IA. Por su parte, BF16 es más exacto y suele emplearse para entrenar modelos a gran escala, equilibrando velocidad y calidad en los resultados.

Estas innovaciones resultan críticas para ejecutar modelos complejos en hardware limitado, facilitando así que empresas y desarrolladores independientes adopten tecnología avanzada sin requerir centros de datos costosos.

Contexto del mercado y proyección futura

La actualización del modelo DeepSeek-V3.1-Exp responde a la necesidad creciente de procesar información extensa con menor costo y mayor rapidez. En un mercado de IA cada vez más competitivo, la combinación de “Sparse Attention”, precios reducidos y soporte de hardware especializado posiciona a DeepSeek como un referente de innovación en China.

Especialistas consultados por Bloomberg señalaron que la estrategia podría fortalecer la influencia de DeepSeek en un sector dominado por gigantes tecnológicos y fomentar nuevos desarrollos en arquitecturas más eficientes para IA.

La empresa indicó que esta versión es apenas un paso intermedio hacia su arquitectura de próxima generación, lo que sugiere futuros lanzamientos con mejoras aún más disruptivas en rendimiento y escalabilidad.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín