AI日报：智谱发布GLM-5V-Turbo多模态Coding大模型；Seedance 2.0 API正式全量开放；美团 LongCat-AudioDiT 开源

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

1、智谱发布 GLM-5V-Turbo 多模态 Coding 大模型

智谱发布的GLM-5V-Turbo多模态Coding大模型，实现了视觉与编程能力的深度融合，支持多种视觉工具调用，并在多个核心基准测试中表现出色。该模型的应用场景包括前端复刻、GUI自主探索和交互式编辑，显著提升了开发效率。同时，其接入AutoClaw智能体后，使该智能体具备了真正的视觉能力，能够解读复杂图表并输出专业分析报告。

【AiBase提要:】
🧠 多模态基座模型GLM-5V-Turbo发布，实现视觉与编程能力的深度融合。
💻 支持前端复刻、GUI自主探索和交互式编辑，提升开发效率。
📊 AutoClaw智能体接入后，具备真正的视觉能力，可解读复杂图表并输出分析报告。

2、字节火山引擎Seedance 2.0正式面向普通API客户开放申请

字节跳动火山引擎正式开放Seedance 2.0 API服务，标志着其多模态视频生成模型从封闭体验向开放生态转型，为开发者和企业提供更强大的视频创作工具。

【AiBase提要:】
🎥 Seedance 2.0支持文字、图片、音频和视频四种模态输入，提升视频生成的可控性。
💡 提供电影质感视频生成，适用于短剧制作、电商营销等场景。
🔒 强调版权保护，开放API需通过企业认证并接受内容审核。

3、美团 LongCat-AudioDiT 开源:首创波形潜空间建模，刷新音色克隆 SOTA

美团 LongCat-AudioDiT 开源项目通过波形潜空间建模，实现了语音克隆性能的突破，其创新架构和优化技术显著提升了语音生成的质量与稳定性。

【AiBase提要:】
🧠 创新性地采用波形潜空间建模，摆脱传统梅尔频谱中间表征的限制。
🚀 通过 Wav-VAE 和 DiT 构建极简架构，提升语音生成效率与质量。
🔧 引入双重约束机制和自适应投影引导技术，解决音色漂移问题并优化生成效果。
详情链接:https://github.com/meituan-longcat/LongCat-AudioDiT

4、日均消耗破 120 万亿！字节跳动豆包大模型成“流量王”：两年狂涨 1000 倍

文章报道了字节跳动豆包大模型在 AI 应用方面的显著进展，其日均 Token 使用量突破 120 万亿，展现了强大的 AI 渗透力。同时，国产大模型的调用量也在持续增长，并在部分领域超越了海外主流模型。云厂商正在重新评估 Token 的商业价值，TokenHub 成为新的竞争焦点。

【AiBase提要:】
🔥 豆包大模型日均 Token 使用量突破 120 万亿，展现强大的 AI 应用能力。
📈 国产大模型调用量持续增长，部分领域已超越海外主流模型。
🔄 云厂商重估 Token 商业价值，TokenHub 成为新战场。

5、蚂蚁数科DTClaw开启内测:定位专业级AI智能体赛道

蚂蚁数科正式宣布旗下专业级龙虾产品DTClaw开启内测，标志着该公司正式进军专业AI智能体赛道。DTClaw精准定位为“专业型”AI，旨在为金融专家、理财顾问及数据分析师等深度专业人群提供全天候在线的专属AI智能体服务。技术层面，DTClaw强调“原生专家”属性，集成了上百种专业技能，并预置了大量成熟的“熟虾”模板，应用场景精准覆盖投资理财、复杂数据分析、软件研发及自动化测试等高价值领域。在AI智能体从“助理”向“专家”进化的行业趋势下，蚂蚁数科此举显示了其深耕垂直行业、实现AI生产力闭环的战略意图。

【AiBase提要:】
🧠 DTClaw定位为专业级AI智能体，面向金融专家、理财顾问及数据分析师等深度专业人群提供服务。
🔧 DTClaw集成上百种专业技能，预置大量“熟虾”模板，覆盖投资理财、复杂数据分析等高价值领域。
🚀 蚂蚁数科通过DTClaw进军专业AI智能体赛道，显示其深耕垂直行业、实现AI生产力闭环的战略意图。

6、Anthropic 测试“龙虾” Conway：支持独立 UI、Webhook 唤醒与自定义扩展标准

Anthropic正在开发名为Conway的常驻代理解决方案，旨在为Claude打造一个始终在线、独立运行的智能环境。Conway将拥有独立的UI实例，支持浏览器操作、外部连接器连接以及Claude Code功能，同时通过Webhook实现自动化响应，并推出CNW ZIP标准以增强扩展性。

【AiBase提要:】
📱 独立UI实例，突破传统聊天界面限制
⚙️ 支持Webhook唤醒与外部服务连接
📦 推出CNW ZIP标准，构建自定义扩展生态

7、谷歌开源大模型 Gemma 4 官宣在即：参数量翻 4 倍

谷歌开源大模型Gemma 4即将发布，其参数量达到120B，是上一代的4倍，并采用MoE架构以优化性能与效率。同时，谷歌通过开源项目保持在开发者社区的影响力，试图在本地化服务中与中国公司竞争。

【AiBase提要:】
🧠 参数量翻4倍，Gemma 4将挑战本地运行极限
🔄 采用MoE架构，兼顾性能与效率
🌍 开源赛道进入“参数与效率”双拼时代

8、AI 编程进入“靠谱”时代：通义实验室正式发布 Qwen3.6-Plus

通义实验室发布 Qwen3.6-Plus，聚焦 Coding Agent 与长上下文，提升智能体编程的稳定性与执行效率，同时实现生态兼容与视觉智能体闭环。

【AiBase提要:】
🧠 编码能力飞跃：在前端页面生成、代码修复及终端自动化场景中表现卓越。
🌐 百万级上下文：默认支持 100万字符上下文窗口，大幅提升长文档解析与多轮对话的信息提取精度。
🛠️ 生态兼容：无缝集成主流开发工具，支持多种第三方编程助手的深度适配。