阿里通义实验室语音团队今日宣布推出两款革命性的语音生成模型:Fun-CosyVoice3.5Fun-AudioGen-VD。这两款模型最大的亮点在于支持“FreeStyle”指令,用户无需复杂的参数调节,仅需通过一句自然语言描述,即可精准控制声音的表达风格或从零构建复杂的音频场景。

image.png

两款模型的功能侧重各有不同:

Fun-CosyVoice3.5:多语种复刻与精细化控制

该模型是此前 CosyVoice 的升级版,核心突破在于对语音表达的“理解力”。

Fun-AudioGen-VD:全场景声音设计

该模型更像是一个“声音导演”,能够根据描述生成“人物 + 场景”的一体化音频。

通义实验室表示,这两款模型的发布将进一步降低高品质语音创作的门槛,为播客、游戏开发、影视后期等领域提供强大的 AI 助力。