通义实验室昨晚正式发布全新多模态大模型 Qwen3.5-Omni。相比前代,该模型在理解力、交互感与任务执行力上实现了跨越式进化,标志着 AI 正在从“屏幕内的助手”真正走向“理解物理世界的智能体”。

核心突破:全模态与215项 SOTA

Qwen3.5-Omni 采用原生的 “全模态”架构,能够无缝处理文本、图像、音频及视频输入。在涵盖音视频分析、推理、对话及翻译的测试中,该模型斩获了 215项 SOTA(业界最佳 战绩。特别是在通用音频理解与识别领域,其表现已全面超越 Gemini-3.1Pro,而视觉与文本能力则保持了与同尺寸 Qwen3.5模型持平的顶尖水准。

QQ20260331-090527.jpg

技术深剖:Hybrid-Attention MoE 架构

模型延续了经典的 Thinker-Talker 分工模式,并进行了底层重构:

QQ20260331-113643.jpg

场景落地:从 Vibe Coding 到音色克隆

Qwen3.5-Omni 的进化直接转化为了多个突破性的应用场景:

  1. 自然涌现的 Vibe Coding: 模型在未经过专门训练的情况下,展现出了惊人的代码理解与生成能力,能根据视频画面逻辑直接生成 Python 代码或前端原型。

  2. 拟人化实时交互: 支持语义打断。它能分辨咳嗽等杂音与真正插话的区别,并允许用户通过指令调节语气(如“开心的”)与音量。

  3. 细粒度视频拆解: 可生成带时间戳的结构化 Caption,精准识别视频中的人物动作、背景音乐变化及镜头切换。

  4. 个性化音色克隆: 用户仅需上传一段录音,即可定制具备高自然度、支持113种语言的专属“数字分身”。

目前,Qwen3.5-Omni 已在阿里云百炼平台上线,提供 Plus、Flash、Light 三种尺寸,并同步开放了实时对话(Realtime)API 及魔搭社区 Demo。