Microsoft acaba de anunciar tres nuevos modelos de inteligencia artificial basados en MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2, marcando un paso importante en su ambición de construir un ecosistema de IA multimodal propio.
Este es un producto de Microsoft AI, una división de investigación de inteligencia artificial dirigida por el CEO Mustafa Suleyman, establecida a finales de 2025.
El lanzamiento de estos modelos muestra que Microsoft está reduciendo gradualmente la dependencia de los socios, al tiempo que compite directamente con grandes nombres como OpenAI o Google.
Entre ellos, MAI-Transcribe-1 es un modelo para convertir la voz en texto, admite hasta 25 idiomas y se dice que es 2,5 veces más rápido que el servicio Azure Fast actual.
MAI-Voice-1 se centra en la creación de sonido, tiene la capacidad de crear 60 segundos de voz en solo un segundo y permite personalizar la voz según las necesidades del usuario.
En particular, MAI-Image-2 no solo se detiene en las imágenes, sino que también admite la creación de videos, ampliando las capacidades de aplicación de la IA en la creación de contenido.
Este modelo ha sido probado desde el 19 de marzo en MAI Playground, la nueva plataforma de prueba de modelos de Microsoft, antes de ser subido al ecosistema Microsoft Foundry.
Actualmente, los tres modelos están disponibles en Microsoft Foundry, mientras que los modelos relacionados con la voz también están integrados en MAI Playground para pruebas y desarrollo.
Según Mustafa Suleyman, director ejecutivo de Microsoft AI, la filosofía de desarrollo de Microsoft AI es poner a las personas en el centro.
Los modelos están diseñados para optimizar la forma en que las personas se comunican en la práctica, en lugar de centrarse únicamente en el rendimiento técnico. También agregó que muchos modelos nuevos se anunciarán pronto e integrarán directamente en los productos de Microsoft.
Otro punto notable es la estrategia de precios. Microsoft dice que los modelos MAI están valorados más bajos que muchos competidores. Específicamente, MAI-Transcribe-1 cuesta desde 0,36 USD por hora, MAI-Voice-1 desde 22 USD por millón de caracteres, y MAI-Image-2 cuesta desde 5 USD por millón de tokens de entrada de texto y 33 USD por salida de imagen.
En el contexto de un mercado de modelos lingüísticos de gran escala cada vez más competitivo, el factor costo se considera una ventaja importante para atraer empresas y desarrolladores.
A pesar de impulsar el desarrollo de modelos propios, Microsoft sigue afirmando que seguirá cooperando estrechamente con OpenAI. La empresa ha invertido más de 13 mil millones de dólares en este socio e integra muchas tecnologías de IA en su ecosistema de productos.
Sin embargo, los ajustes recientes en el acuerdo de cooperación han abierto un espacio mayor para que Microsoft lleve a cabo investigaciones sobre "superinteligencia". Esto demuestra que la empresa está persiguiendo una estrategia paralela de cooperación y autonomía tecnológica.