美团发布原生多模态 LongCat-Next：视觉语音实现底层统一

4 月 3 日，美团技术团队正式发布原生多模态大模型 LongCat-Next。该模型突破了传统“语言基座+插件”的拼凑架构，通过将图像、语音与文本统一转化为同源的离散 Token，让 AI 第一次能够像处理文字一样，原生地“看”与“听”物理世界。

为了打破模态间的隔阂，美团构建了 DiNA（离散原生自回归）架构，实现了多模态建模的深度统一：

全模态统一： 无论是文字、图像还是音频，模型都采用同一套参数、注意力机制和损失函数。
理解与生成对称： 在统一的数学形式下，预测文字 Token 即为“理解”，预测图像 Token 即为“生成”，两者在训练中表现出显著的协同潜力。
极致压缩： 采用 dNaViT 视觉分词器，支持任意分辨率输入，通过 8 层残差向量量化实现高达 28 倍的像素空间压缩，完整保留 OCR、财报解析等任务中的关键细节。

LongCat-Next在多个维度上展现了超越专用模型的性能，有力回击了“离散化必然损失信息”的传统观点：

长期以来，大模型一直是以语言为中心的系统。而 LongCat-Next 的意义在于，它证明了物理信息可以被离散化并像语言一样被建模。当 AI 拥有了统一的“母语”，它在调用工具、编写代码以及理解复杂图表时会变得更加聪明和直观。

目前，美团已将LongCat-Next 模型及dNaViT 分词器全部开源。这一小尺寸、高潜力的原生离散架构，将为开发者构建能感知并作用于真实世界的 AI 提供重要工具。