Luma AI 发布 Uni-1 图像模型，采用自回归架构同步生成文本与像素

Luma Labs 于 3 月 23 日发布图像生成模型 Uni-1，这是该公司基于 Unified Intelligence 架构推出的首款公开模型。官网已开放免费试用，API 定价同步公布，企业接入通道将逐步上线。

架构变化：从扩散模型到自回归

Uni-1 放弃了当前主流的扩散模型路线，转而使用 decoder-only 自回归 Transformer，将文本 token 与图像 token 交错排列成单一序列，在同一个前向传播中完成推理和像素生成。

Luma CEO Amit Jain 解释，传统方案通常是先用语言模型规划、再交给扩散模型生成，两个阶段之间存在信息损耗。Uni-1 的设计目标是消除这个断层。

Jain 此前任职 Apple，参与过 Vision Pro 工程工作。

功能：参考图控制与跨风格生成

Uni-1 支持单张或多张参考图引导生成，可保留人物身份、姿势和构图。官方测试显示，在处理角色一致性和人像控制时，多参考图模式表现稳定。

模型声称支持 76 种视觉风格，覆盖写实摄影、漫画、浮世绘等类别。

演示中有一个场景：输入"画一张金门大桥信息图"，模型自动规划布局，生成桥梁结构图并标注"1711 Meters"等数据，内部推理过程实时可见。

基准测试：空间推理与参考生成领先

Luma 公布的数据显示，Uni-1 在 RISEBench 推理基准上总分 0.51，高于 Google Nano Banana 2 的 0.50 和 OpenAI GPT Image 1.5 的 0.46；空间推理单项 0.58，逻辑推理 0.32，后者约为 GPT Image 的两倍。

ODinW-13 物体检测得分 46.2 mAP，接近 Google Gemini 3 Pro 的 46.3。

人类偏好 Elo 排名方面，Uni-1 在整体偏好、风格与编辑、参考生成三项排名第一，文生图单项排名第二。

定价

API 按 token 计费：输入文本 $0.50/百万 token，输入图像 $1.20/百万 token，输出文本与思考链 $3.00/百万 token，输出图像 $45.45/百万 token。

换算为单张图像：文生图（2048px）约 $0.0909，带单张参考图的编辑约 $0.0933， 8 张参考图约 $0.1101。

VentureBeat 报道称，在 2K 分辨率企业场景下，Uni-1 成本比 Google Nano Banana 2 低 10% 至 30%。

背景

Luma Labs 此前以视频生成产品 Dream Machine（Ray3 系列）为主要业务，今年 3 月 5 日发布了基于 Unified Intelligence 架构的 Luma Agents 创意代理平台。Uni-1 是该架构首次在静态图像产品上落地。

发布数小时内，相关帖子在 X 平台获得超过 230 万次浏览。Luma 表示后续将推出视频和音频版本，具体时间未公布。

试用地址：lumalabs.ai/uni-1