Por Canuto  

Microsoft presentó tres nuevos modelos fundacionales capaces de generar texto, voz e imágenes, en una señal clara de que quiere construir una pila propia de IA multimodal para competir con OpenAI y Google sin romper su alianza con OpenAI.
***

  • Microsoft AI lanzó MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2 a través de Foundry y MAI Playground.
  • La empresa afirma que sus nuevos modelos pueden competir en precio con ofertas de Google y OpenAI.
  • Mustafa Suleyman dijo que la compañía seguirá desarrollando más modelos propios sin abandonar su acuerdo con OpenAI.

 

Microsoft AI, el laboratorio de investigación en inteligencia artificial del gigante tecnológico, anunció el lanzamiento de tres nuevos modelos fundacionales capaces de generar texto, voz e imágenes. El movimiento refuerza la intención de la empresa de construir una pila propia de IA multimodal, en un momento en que la competencia entre grandes laboratorios del sector se ha intensificado.

Según reportó TechCrunch, los nuevos sistemas se llaman MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2. Con ellos, Microsoft busca ampliar su oferta interna de modelos, incluso mientras mantiene su asociación estratégica con OpenAI.

Para los lectores menos familiarizados con este mercado, los modelos fundacionales son sistemas de IA entrenados sobre grandes volúmenes de datos que luego pueden adaptarse a múltiples tareas. En la práctica, son la base de herramientas usadas para transcribir audio, generar voz sintética, crear imágenes o responder preguntas con lenguaje natural.

La decisión de Microsoft también refleja una tendencia cada vez más visible entre las grandes tecnológicas. Varias compañías están intentando combinar alianzas externas con desarrollo propio, para reducir dependencia, controlar costos y ganar margen estratégico en un mercado que cambia con rapidez.

Qué hace cada uno de los nuevos modelos

El primero de los anuncios fue MAI-Transcribe-1, un modelo que convierte voz en texto en 25 idiomas distintos. Microsoft aseguró que este sistema es 2,5 veces más rápido que Azure Fast, una de sus ofertas actuales dentro de este segmento.

La transcripción de audio se ha convertido en una herramienta clave para asistentes digitales, centros de atención, plataformas empresariales y aplicaciones de productividad. En ese contexto, la velocidad y el soporte multilingüe son dos factores que suelen pesar tanto como la precisión del modelo.

El segundo lanzamiento fue MAI-Voice-1, un modelo generador de audio. De acuerdo con la compañía, esta tecnología permite crear 60 segundos de audio en apenas un segundo y además ofrece la posibilidad de desarrollar una voz personalizada.

Ese tipo de capacidad resulta especialmente relevante para productos de síntesis de voz, agentes conversacionales y herramientas de accesibilidad. También entra en una categoría cada vez más competida, donde empresas de IA buscan diferenciarse por realismo, velocidad de respuesta y costos de inferencia.

El tercer sistema, MAI-Image-2, fue presentado como un modelo generador de video en la información difundida por la fuente. TechCrunch también indicó que MAI-Image-2 se había lanzado originalmente en MAI Playground el 19 de marzo, antes de su despliegue más amplio dentro del ecosistema de Microsoft.

Ahora, los tres modelos comenzarán a estar disponibles en Microsoft Foundry. Además, los modelos de transcripción y voz también podrán usarse en MAI Playground, el nuevo software de pruebas para modelos de lenguaje de gran tamaño que Microsoft viene impulsando para experimentación y acceso temprano.

El equipo detrás del desarrollo y la visión de Suleyman

Los modelos fueron desarrollados por el equipo MAI Superintelligence de Microsoft. Se trata de un grupo de investigación en IA liderado por Mustafa Suleyman, actual CEO de Microsoft AI, cuya creación y presentación pública se produjo en noviembre de 2025.

Suleyman es una de las figuras más observadas dentro del sector, tanto por su historial en inteligencia artificial como por el papel que ahora desempeña en la estrategia interna de Microsoft. Su presencia al frente de este equipo sugiere que la empresa no solo quiere distribuir IA de terceros, sino también diseñar una línea propia de modelos avanzados.

En una publicación de blog citada por la fuente, Suleyman explicó la filosofía con la que Microsoft está desarrollando estos sistemas. “En Microsoft AI, estamos construyendo una IA humanista. Tenemos una visión distintiva al crear nuestros modelos de IA: poner a los humanos en el centro, optimizar para cómo se comunican realmente las personas, entrenar para un uso práctico”, escribió.

El ejecutivo también anticipó que la compañía seguirá ampliando esta familia de productos. “Verán más modelos de nuestra parte pronto en Foundry y directamente en productos y experiencias de Microsoft”, señaló en esa misma publicación.

Esa declaración importa porque apunta a un horizonte más amplio que un simple lanzamiento puntual. Si Microsoft cumple ese plan, es probable que sus modelos aparezcan con más frecuencia en servicios corporativos, herramientas de productividad y productos de consumo integrados en su ecosistema de software y nube.

Precios, competencia y presión sobre el mercado

En un mercado de modelos de lenguaje grandes y sistemas multimodales cada vez más saturado, Microsoft espera que uno de los principales atributos comerciales de esta nueva oferta sea el precio. La empresa dijo que estos modelos son más baratos que alternativas de Google y OpenAI, según la publicación reseñada por TechCrunch.

MAI-Transcribe-1 parte desde USD $0,36 por hora. MAI-Voice-1 comienza en USD $22 por 1 millón de caracteres, mientras que MAI-Image-2 arranca en USD $5 por 1 millón de tokens para entrada de texto y en USD $33 por 1 millón de tokens para salida de imagen.

La competencia por precios es un frente cada vez más relevante en la industria de IA. A medida que más empresas incorporan modelos generativos a procesos de negocio, la eficiencia económica puede ser tan decisiva como el rendimiento técnico, sobre todo cuando las aplicaciones requieren alto volumen de uso.

Para Microsoft, esta estrategia encaja con su posición como proveedor de infraestructura y servicios empresariales. Si logra combinar integración con Azure, herramientas de prueba como Foundry y costos competitivos, podría atraer a desarrolladores y compañías que quieren diversificar proveedores sin salir de un entorno conocido.

También hay un componente de señal al mercado. El lanzamiento no solo agrega productos, sino que comunica que Microsoft pretende disputar espacio en el nivel más profundo de la cadena de valor de IA, donde se diseñan y monetizan los modelos base.

La relación con OpenAI sigue en pie

A pesar de este impulso hacia modelos propios, Suleyman reiteró el compromiso de Microsoft con su asociación con OpenAI en una entrevista con VentureBeat, citada en la cobertura original. Esa precisión resulta clave porque evita interpretar el anuncio como una ruptura con uno de sus socios más importantes en inteligencia artificial.

De acuerdo con lo indicado por la fuente, una renegociación reciente de la relación entre ambas compañías permitió que Microsoft avanzara realmente en esta investigación de superinteligencia. Esa afirmación fue atribuida por TechCrunch a declaraciones de Suleyman dadas a The Verge.

Microsoft ha invertido más de USD $13.000 millones en OpenAI y aloja sus modelos en varios de sus productos por medio de una asociación plurianual. En otras palabras, la empresa sigue beneficiándose de esa relación, incluso mientras fortalece capacidades internas para no depender de un solo actor.

La lógica no es nueva dentro del grupo. Según la comparación incluida en la historia original, Microsoft adopta una postura similar con los chips, ya que produce algunos propios y al mismo tiempo compra a proveedores externos. En IA, esa estrategia híbrida parece apuntar al mismo objetivo: flexibilidad, control y resiliencia.

En conjunto, el anuncio muestra a una Microsoft que quiere jugar en dos tableros a la vez. Por un lado, conservar la ventaja comercial de su vínculo con OpenAI. Por otro, crear una cartera propia de modelos fundacionales que le permita competir con mayor autonomía frente a laboratorios rivales como Google y otros actores del sector.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín