欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

1、智谱发布 GLM-5V-Turbo 多模态 Coding 大模型

智谱发布的GLM-5V-Turbo多模态Coding大模型,实现了视觉与编程能力的深度融合,支持多种视觉工具调用,并在多个核心基准测试中表现出色。该模型的应用场景包括前端复刻、GUI自主探索和交互式编辑,显著提升了开发效率。同时,其接入AutoClaw智能体后,使该智能体具备了真正的视觉能力,能够解读复杂图表并输出专业分析报告。

【AiBase提要:】

🧠 多模态基座模型GLM-5V-Turbo发布,实现视觉与编程能力的深度融合。

💻 支持前端复刻、GUI自主探索和交互式编辑,提升开发效率。

📊 AutoClaw智能体接入后,具备真正的视觉能力,可解读复杂图表并输出分析报告。

2、字节火山引擎Seedance 2.0正式面向普通API客户开放申请

字节跳动火山引擎正式开放Seedance 2.0 API服务,标志着其多模态视频生成模型从封闭体验向开放生态转型,为开发者和企业提供更强大的视频创作工具。

【AiBase提要:】

🎥 Seedance 2.0支持文字、图片、音频和视频四种模态输入,提升视频生成的可控性。

💡 提供电影质感视频生成,适用于短剧制作、电商营销等场景。

🔒 强调版权保护,开放API需通过企业认证并接受内容审核。

3、美团 LongCat-AudioDiT 开源:首创波形潜空间建模,刷新音色克隆 SOTA

美团 LongCat-AudioDiT 开源项目通过波形潜空间建模,实现了语音克隆性能的突破,其创新架构和优化技术显著提升了语音生成的质量与稳定性。

image.png

【AiBase提要:】

🧠 创新性地采用波形潜空间建模,摆脱传统梅尔频谱中间表征的限制。

🚀 通过 Wav-VAE 和 DiT 构建极简架构,提升语音生成效率与质量。

🔧 引入双重约束机制和自适应投影引导技术,解决音色漂移问题并优化生成效果。

详情链接:https://github.com/meituan-longcat/LongCat-AudioDiT

4、日均消耗破 120 万亿!字节跳动豆包大模型成“流量王”:两年狂涨 1000 倍

文章报道了字节跳动豆包大模型在 AI 应用方面的显著进展,其日均 Token 使用量突破 120 万亿,展现了强大的 AI 渗透力。同时,国产大模型的调用量也在持续增长,并在部分领域超越了海外主流模型。云厂商正在重新评估 Token 的商业价值,TokenHub 成为新的竞争焦点。

【AiBase提要:】

🔥 豆包大模型日均 Token 使用量突破 120 万亿,展现强大的 AI 应用能力。

📈 国产大模型调用量持续增长,部分领域已超越海外主流模型。

🔄 云厂商重估 Token 商业价值,TokenHub 成为新战场。

5、蚂蚁数科DTClaw开启内测:定位专业级AI智能体赛道

蚂蚁数科正式宣布旗下专业级龙虾产品DTClaw开启内测,标志着该公司正式进军专业AI智能体赛道。DTClaw精准定位为“专业型”AI,旨在为金融专家、理财顾问及数据分析师等深度专业人群提供全天候在线的专属AI智能体服务。技术层面,DTClaw强调“原生专家”属性,集成了上百种专业技能,并预置了大量成熟的“熟虾”模板,应用场景精准覆盖投资理财、复杂数据分析、软件研发及自动化测试等高价值领域。在AI智能体从“助理”向“专家”进化的行业趋势下,蚂蚁数科此举显示了其深耕垂直行业、实现AI生产力闭环的战略意图。

【AiBase提要:】

🧠 DTClaw定位为专业级AI智能体,面向金融专家、理财顾问及数据分析师等深度专业人群提供服务。

🔧 DTClaw集成上百种专业技能,预置大量“熟虾”模板,覆盖投资理财、复杂数据分析等高价值领域。

🚀 蚂蚁数科通过DTClaw进军专业AI智能体赛道,显示其深耕垂直行业、实现AI生产力闭环的战略意图。

6、Anthropic 测试“龙虾” Conway:支持独立 UI、Webhook 唤醒与自定义扩展标准

Anthropic正在开发名为Conway的常驻代理解决方案,旨在为Claude打造一个始终在线、独立运行的智能环境。Conway将拥有独立的UI实例,支持浏览器操作、外部连接器连接以及Claude Code功能,同时通过Webhook实现自动化响应,并推出CNW ZIP标准以增强扩展性。

【AiBase提要:】

📱 独立UI实例,突破传统聊天界面限制

⚙️ 支持Webhook唤醒与外部服务连接

📦 推出CNW ZIP标准,构建自定义扩展生态

7、谷歌开源大模型 Gemma 4 官宣在即:参数量翻 4 倍

谷歌开源大模型Gemma 4即将发布,其参数量达到120B,是上一代的4倍,并采用MoE架构以优化性能与效率。同时,谷歌通过开源项目保持在开发者社区的影响力,试图在本地化服务中与中国公司竞争。

image.png

【AiBase提要:】

🧠 参数量翻4倍,Gemma 4将挑战本地运行极限

🔄 采用MoE架构,兼顾性能与效率

🌍 开源赛道进入“参数与效率”双拼时代

8、AI 编程进入“靠谱”时代:通义实验室正式发布 Qwen3.6-Plus

通义实验室发布 Qwen3.6-Plus,聚焦 Coding Agent 与长上下文,提升智能体编程的稳定性与执行效率,同时实现生态兼容与视觉智能体闭环。

image.png

【AiBase提要:】

🧠 编码能力飞跃:在前端页面生成、代码修复及终端自动化场景中表现卓越。

🌐 百万级上下文:默认支持 100万 字符上下文窗口,大幅提升长文档解析与多轮对话的信息提取精度。

🛠️ 生态兼容:无缝集成主流开发工具,支持多种第三方编程助手的深度适配。