微软发布首批自研大模型MAI-Voice-1与MAI-1-preview 减少对OpenAI的依赖

微软近日发布两款自研人工智能模型 MAI-Voice-1 和 MAI-1-preview，标志着公司在基础大模型领域迈出关键一步，意在逐步降低对 OpenAI 模型的高度依赖。过去一段时间，微软在 AI 能力上主要依托 OpenAI，每当后者推出最新模型，微软都会同步宣布这些模型在 Azure 以及旗下各类产品和服务中“首日上架”。此次推出的 MAI-Voice-1 和 MAI-1-preview，是微软以自建模型补强自身 AI 版图的重要动作。

MAI-Voice-1 是一款面向语音生成场景的模型，目前已集成到 Copilot Daily 与 Podcasts 等产品中，并面向公众开放体验。为展示这款语音模型的完整能力，微软上线了全新的 Copilot Labs 交互体验页面，用户可直接通过浏览器进行试用。在 Copilot Audio Expressions 体验中，用户只需粘贴文本内容，即可选择不同的声音、风格和模式，生成高保真、富有表现力的音频，还可以按需下载生成结果。微软强调，MAI-Voice-1 在性能上也进行了深度优化，能够在单块 GPU 上用不到 1 秒的时间生成长达 1 分钟的音频，兼顾质量与效率。

与此同时，微软也开始在社区评测平台 LMArena 上公开测试 MAI-1-preview，这一平台以对各类大语言模型进行对比评估而闻名。MAI-1-preview 被定位为 MAI 体系中的首个“端到端”自研基础模型，为未来在 Copilot 及更多产品中落地更强模型提供了预览窗口。微软表示，团队正在通过“飞轮效应”持续推动模型迭代，未来数月内还将公布更多进展。

在技术路径上，MAI-1-preview 采用 MoE（Mixture-of-Experts，专家混合）架构，并在近 1.5 万块 NVIDIA H100 GPU 上完成预训练和后训练，是微软首个完全在内部训练完成的基础模型。微软称，该模型在指令跟随能力方面表现突出，能够更好地理解用户意图，并为日常问题提供更有帮助、更契合语境的回答。接下来，微软会在数周内，将 MAI-1-preview 分阶段接入 Copilot 中部分与文本生成相关的使用场景。

值得注意的是，微软在发布中明确表示，MAI-1-preview 并不会取代 Copilot 中现有的 OpenAI 模型。公司的整体策略是同时利用自家团队、合作伙伴以及开源社区中表现最好的模型，根据不同任务与场景进行灵活组合与调度。目前，MAI-1-preview 已在 LMArena 上开放测试，以便更全面地检验其能力表现，此外，该模型也已通过 API 的方式向部分受信任的测试用户开放试用。

微软 AI 团队在介绍新模型时表示，MAI 已经启用新一代 GB200 计算集群，未来算力储备与路线图“令人兴奋”。团队称，其使命极具雄心，同时也非常幸运，能够与多个旗舰产品团队紧密合作，让自研模型有机会触达数十亿用户，创造广泛而积极的影响。

通过在继续使用 OpenAI 模型的同时，自主开发并部署多款基础模型，微软正在为旗下产品与服务构建更加稳健、多元的 AI 基础设施，以提升长期战略上的“AI 自给自足”能力。