音频生成技术正迎来从级联架构向端到端生成的范式转移。针对传统 TTS 系统因“梅尔频谱”中间表征带来的信息损耗与误差累积,美团 LongCat 团队于今日正式发布并开源了 LongCat-AudioDiT(提供1B/3.5B 两个版本)。该模型通过在波形潜空间直接建模,成功刷新了零样本语音克隆的性能上限。

QQ20260402-101320.jpg

核心架构:彻底告别梅尔频谱

LongCat-AudioDiT 抛弃了传统的“预测声学特征+神经声码器”的多阶段流程,构建了由 Wav-VAE(波形变分自编码器)DiT(扩散 Transformer) 组成的极简架构。

推理优化:精准解决音色漂移

为了进一步优化生成质量,团队引入了两项关键技术改进:

  1. 双重约束机制: 识别并纠正了流匹配 TTS 长期存在的“训练-推理不匹配”问题。通过在推理中强制重置提示区域(Prompt)隐变量,彻底解决了说话人音色漂移及稳定性不足的痛点。

  2. 自适应投影引导 (APG): 取代传统的无分类器引导 (CFG)。APG 能够精准筛选引导信号中的有益分量,抑制导致音质劣化的信号,在不产生频谱“过饱和”的前提下,显著提升了语音的自然度。

性能表现:SOTA 级的克隆精度

在 Seed 基准测试中,LongCat-AudioDiT 展现了统治级的性能:

值得关注的是,LongCat-AudioDiT 仅通过 ASR 转写的预训练数据进行单阶段训练,便实现了优于多阶段训练模型的表现。目前,相关论文、代码及模型权重已在GitHubHuggingFace全面开放。

地址:

GitHub: https://github.com/meituan-longcat/LongCat-AudioDiT

HuggingFace: https://huggingface.co/meituan-longcat/LongCat-AudioDiT