5月28日,英伟达(NVIDIA)研究团队正式开源了名为 Polar 的强化学习训练框架。该框架的核心创新在于,它能够让 Codex、Claude Code、Qwen Code 等现有主流代码智能体(Agent)在不修改任何原生代码的情况下,无缝接入 GRPO(广义相对策略优化)强化学习训练。

image.png

一、行业痛点:智能体强化学习的“围墙”

随着代码智能体从简单的单步任务迈向复杂长流程任务(如仓库级修改、OS 交互),开发者愈发依赖成熟的执行框架(Harness)。然而,将这些复杂的框架接入传统的强化学习基础设施面临巨大的壁垒:

image.png

二、核心解法:将“边界”作为训练入口

Polar 不要求重写执行框架,而是将“模型 API 边界”作为训练的切入点

三、性能飞跃:让编码智能体脱胎换骨

实验数据显示,Polar 配合 GRPO 训练带来了显著的性能增益:

行业点评

英伟达 Polar 的开源,实质上是为“AI 智能体”领域铺设了一条通往强化学习训练的“高速公路”。它不仅让研究人员能够利用海量开源代码框架进行高效训练,更通过系统层面的优化降低了 GPU 算力门槛。

随着 Polar 的普及,开发者无需再为“如何让模型适配训练框架”而苦恼,未来 AI 编码智能体的进化路径将变得更加标准化与高效。这标志着 AI 智能体的训练正在从实验室的手动调优,向规模化、系统化的工程化生产迈进。

论文地址:https://arxiv.org/pdf/2605.24220