微软近日发布两款自研人工智能模型 MAI-Voice-1 和 MAI-1-preview,标志着公司在基础大模型领域迈出关键一步,意在逐步降低对 OpenAI 模型的高度依赖。过去一段时间,微软在 AI 能力上主要依托 OpenAI,每当后者推出最新模型,微软都会同步宣布这些模型在 Azure 以及旗下各类产品和服务中“首日上架”。此次推出的 MAI-Voice-1 和 MAI-1-preview,是微软以自建模型补强自身 AI 版图的重要动作。

MAI-Voice-1 是一款面向语音生成场景的模型,目前已集成到 Copilot Daily 与 Podcasts 等产品中,并面向公众开放体验。为展示这款语音模型的完整能力,微软上线了全新的 Copilot Labs 交互体验页面,用户可直接通过浏览器进行试用。在 Copilot Audio Expressions 体验中,用户只需粘贴文本内容,即可选择不同的声音、风格和模式,生成高保真、富有表现力的音频,还可以按需下载生成结果。微软强调,MAI-Voice-1 在性能上也进行了深度优化,能够在单块 GPU 上用不到 1 秒的时间生成长达 1 分钟的音频,兼顾质量与效率。

与此同时,微软也开始在社区评测平台 LMArena 上公开测试 MAI-1-preview,这一平台以对各类大语言模型进行对比评估而闻名。MAI-1-preview 被定位为 MAI 体系中的首个“端到端”自研基础模型,为未来在 Copilot 及更多产品中落地更强模型提供了预览窗口。微软表示,团队正在通过“飞轮效应”持续推动模型迭代,未来数月内还将公布更多进展。

在技术路径上,MAI-1-preview 采用 MoE(Mixture-of-Experts,专家混合)架构,并在近 1.5 万块 NVIDIA H100 GPU 上完成预训练和后训练,是微软首个完全在内部训练完成的基础模型。微软称,该模型在指令跟随能力方面表现突出,能够更好地理解用户意图,并为日常问题提供更有帮助、更契合语境的回答。接下来,微软会在数周内,将 MAI-1-preview 分阶段接入 Copilot 中部分与文本生成相关的使用场景。

值得注意的是,微软在发布中明确表示,MAI-1-preview 并不会取代 Copilot 中现有的 OpenAI 模型。公司的整体策略是同时利用自家团队、合作伙伴以及开源社区中表现最好的模型,根据不同任务与场景进行灵活组合与调度。目前,MAI-1-preview 已在 LMArena 上开放测试,以便更全面地检验其能力表现,此外,该模型也已通过 API 的方式向部分受信任的测试用户开放试用。

微软 AI 团队在介绍新模型时表示,MAI 已经启用新一代 GB200 计算集群,未来算力储备与路线图“令人兴奋”。团队称,其使命极具雄心,同时也非常幸运,能够与多个旗舰产品团队紧密合作,让自研模型有机会触达数十亿用户,创造广泛而积极的影响。

通过在继续使用 OpenAI 模型的同时,自主开发并部署多款基础模型,微软正在为旗下产品与服务构建更加稳健、多元的 AI 基础设施,以提升长期战略上的“AI 自给自足”能力。