Luma Labs 于 3 月 23 日发布图像生成模型 Uni-1,这是该公司基于 Unified Intelligence 架构推出的首款公开模型。官网已开放免费试用,API 定价同步公布,企业接入通道将逐步上线。

QQ_1774317385820.png

架构变化:从扩散模型到自回归

Uni-1 放弃了当前主流的扩散模型路线,转而使用 decoder-only 自回归 Transformer,将文本 token 与图像 token 交错排列成单一序列,在同一个前向传播中完成推理和像素生成。

Luma CEO Amit Jain 解释,传统方案通常是先用语言模型规划、再交给扩散模型生成,两个阶段之间存在信息损耗。Uni-1 的设计目标是消除这个断层。

Jain 此前任职 Apple,参与过 Vision Pro 工程工作。

功能:参考图控制与跨风格生成

Uni-1 支持单张或多张参考图引导生成,可保留人物身份、姿势和构图。官方测试显示,在处理角色一致性和人像控制时,多参考图模式表现稳定。

模型声称支持 76 种视觉风格,覆盖写实摄影、漫画、浮世绘等类别。

演示中有一个场景:输入"画一张金门大桥信息图",模型自动规划布局,生成桥梁结构图并标注"1711 Meters"等数据,内部推理过程实时可见。

基准测试:空间推理与参考生成领先

QQ_1774317334856.png

Luma 公布的数据显示,Uni-1 在 RISEBench 推理基准上总分 0.51,高于 Google Nano Banana 2 的 0.50 和 OpenAI GPT Image 1.5 的 0.46;空间推理单项 0.58,逻辑推理 0.32,后者约为 GPT Image 的两倍。

ODinW-13 物体检测得分 46.2 mAP,接近 Google Gemini 3 Pro 的 46.3。

人类偏好 Elo 排名方面,Uni-1 在整体偏好、风格与编辑、参考生成三项排名第一,文生图单项排名第二。

定价

API 按 token 计费:输入文本 $0.50/百万 token,输入图像 $1.20/百万 token,输出文本与思考链 $3.00/百万 token,输出图像 $45.45/百万 token。

换算为单张图像:文生图(2048px)约 $0.0909,带单张参考图的编辑约 $0.0933, 8 张参考图约 $0.1101。

VentureBeat 报道称,在 2K 分辨率企业场景下,Uni-1 成本比 Google Nano Banana 2 低 10% 至 30%。

背景

Luma Labs 此前以视频生成产品 Dream Machine(Ray3 系列)为主要业务,今年 3 月 5 日发布了基于 Unified Intelligence 架构的 Luma Agents 创意代理平台。Uni-1 是该架构首次在静态图像产品上落地。

发布数小时内,相关帖子在 X 平台获得超过 230 万次浏览。Luma 表示后续将推出视频和音频版本,具体时间未公布。

试用地址:lumalabs.ai/uni-1