在计算机视觉领域,如何让 AI 像人类一样观察并细致描述图片的每一个角落,一直是业内的难题。近日,苹果公司联合威斯康星大学麦迪逊分校,正式发布了一款名为RubiCap的全新 AI 训练框架。

该框架专为“密集图像描述”设计,旨在让 AI 不再只提供笼统的概括,而是能精准捕捉并说明“桌上的红苹果”或“远处的行人”等图像细节。

image.png

以小博大的强化学习:Qwen2.5 担任“裁判”

传统的图像标注往往依赖昂贵的人工或容易产生幻觉的大模型,导致数据质量参差不齐。苹果研究团队通过创新的强化学习机制解决了这一痛点。系统首先利用 GPT-5 和 Gemini 2.5 Pro 生成候选描述,随后由 Gemini 2.5 Pro 提炼评分标准,并由 Qwen2.5 模型 担任裁判进行打分反馈。

这种结构化的精准反馈,让模型在训练过程中能够明确感知并修正错误,从而在更小的参数规模下实现更高的描述准确度。

紧凑型模型的胜利:低幻觉率超越千亿大模

基于该框架训练出的RubiCap系列模型(涵盖 20 亿至 70 亿参数)在测试中展现了惊人的效率。实验数据证明,仅有 70 亿参数的 RubiCap 模型在盲测中获得了最高排名,其“幻觉”错误率甚至低于参数量高达 720 亿的前沿大模型。更令人意外的是,30 亿参数的微型版本在部分指标上甚至反超了 70 亿版本。

这一突破有力地证明了,高质量的图像理解能力并不完全依赖庞大的参数堆砌,而是源于更科学的训练范式。