
回顾技术路径,杨植麟将大模型演进划分为三个时期:三年前的第一阶段主要依赖互联网天然数据及少量价值观对齐的人工标注;去年的第二阶段则侧重于大规模强化学习,由研究员精选高质量任务以提升模型性能。进入2026年,AI研发方式发生根本性变革,研究员的角色正向“AI算力调度者”转变。在这一新阶段,研发过程将由AI利用大量Token自主合成新任务与环境,并定义最适宜的奖励参数,甚至深度参与探索全新的网络架构。
这一趋势预示着AI研发效率将进入指数级加速期。月之暗面表示,其核心产品

回顾技术路径,杨植麟将大模型演进划分为三个时期:三年前的第一阶段主要依赖互联网天然数据及少量价值观对齐的人工标注;去年的第二阶段则侧重于大规模强化学习,由研究员精选高质量任务以提升模型性能。进入2026年,AI研发方式发生根本性变革,研究员的角色正向“AI算力调度者”转变。在这一新阶段,研发过程将由AI利用大量Token自主合成新任务与环境,并定义最适宜的奖励参数,甚至深度参与探索全新的网络架构。
这一趋势预示着AI研发效率将进入指数级加速期。月之暗面表示,其核心产品