PPO-VLA：强化学习如何让机器人“看得更懂、抓得更准”？

📅 发布时间：2026/7/4 4:56:55 👁️ 浏览次数：

一项来自清华大学的实证研究表明相比传统的监督微调使用PPO算法进行强化学习微调能使VLA模型在语义理解和执行鲁棒性方面的分布外泛化能力提升高达42.6%。论文What Can RL Bring to VLA Generalization? An Empirical Study 链接https://arxiv.org/abs/2505.19789 代码https://rlvla.github.io想象一下你让一个家用机器人“把桌上的苹果放进碗里”。在实验室里它可能完成得很好。但一旦进入你家面对从未见过的餐桌纹理、一个形状奇特的“碗”、或者在你下达指令时苹果被意外碰歪了位置它还能顺利完成吗这正是当前VLA模型面临的泛化挑战。这类模型通过整合视觉感知、语言理解和机器人控制已成为具身人工智能领域的明星。然而其主流训练方法——监督微调本质上是在模仿专家演示数据。当环境稍有变化微小的误差便会累积导致机器人“不知所措”。来自清华大学的研究团队提出并系统性地回答了这个问题强化学习能为VLA的泛化带来什么他们的研究不仅构建了一个严格的评估基准更通过大量实验揭示以近端策略优化为代表的强化学习微调能显著提升VLA模型在语义理解和动作执行上的鲁棒性为打造真正适应复杂现实世界的机器人智能体提供了关键洞见。一、问题核心SFT的“模仿”瓶颈与RL的“试错”潜力VLA模型通常基于在互联网海量数据上预训练的大模型如LLaMA、CLIP再在机器人演示数据集上进行监督微调。这个过程就像教孩子学写字给他看很多遍“正确”的笔画希望他能模仿出来。然而这种方法的根本局限在于 “分布偏移下的复合误差” 。训练数据中的场景、物体、指令是有限的。一旦测试环境与训练数据有出入例如出现了新物体、新背景或物体位置偏移模型基于“记忆”做出的动作就可能出错。在需要连续决策的机器人任务中一个步骤的小偏差会引发后续步骤的更大错误最终导致任务失败。相比之下强化学习走的是另一条路让智能体在与环境的直接交互中通过试错来学习如何最大化任务奖励。它不局限于模仿已有的“正确”答案而是主动探索学习从错误中恢复从而可能获得超越演示数据的、更鲁棒的行为策略。尽管RL在语言模型等领域已展现出卓越的泛化能力但其在VLA模型上的具体收益一直缺乏系统性评估。清华团队的这项研究正是为了填补这一空白。二、方法探路为何PPO成为VLA微调的“最优解”研究首先面临一个关键选择在众多适用于大模型的RL算法中哪种最适合VLA团队测试了三种代表性算法• 近端策略优化经典的在线策略梯度算法通过交互采样数据并优化策略。• 组相对策略优化一种无需显式价值函数、通过组内样本比较来估计优势的方法在部分NLP任务中表现优异。• 直接偏好优化一种流行的离线对齐算法利用偏好数据直接优化策略。本研究的基模型——OpenVLA架构。它将视觉编码器与语言模型结合直接输出离散化的机器人动作词元。实验在一个典型的“拾取-放置”任务上进行。结果如图3所示PPO的表现显著且稳定地优于GRPO和DPO。图不同RL算法在VLA微调中的性能对比。PPO及其变体PPO-ORZ展现出明显优势。研究者分析认为机器人任务是一个部分可观测的马尔可夫决策过程每个动作都会顺序地、非平稳地改变环境状态。GRPO基于固定初始状态采样的组内比较在这种动态环境中可能变得不稳定。而DPO依赖高质量的离线偏好数据在机器人任务稀疏奖励的设置下难以有效区分轨迹优劣且存在严重的分布偏移问题。因此PPO凭借其稳定在线学习和高效利用奖励信号的能力被确立为VLA微调的首选算法。高效PPO-VLA训练方案的精炼选定PPO后研究团队进一步优化提炼出一套高效、实用的微调方案核心包含三个设计1、共享骨干的演员-评论家架构直接在预训练的VLA模型演员上附加一个轻量的多层感知机作为评论家头两者共享Transformer骨干网络。具体而言评论家接收模型第一个动作词元位置对应的隐藏向量来预测状态价值。这种设计在保持性能的同时比独立评论家网络节省了约83%的显存训练速度提升35%。2、必要的VLA预热直接使用在通用数据集上预训练的VLA模型进行RL训练初期效率低下。研究者先用少量目标任务的演示数据对模型进行监督微调预热这能使RL收敛所需的环境交互步数减少约50%。3、最少的PPO更新轮次实验发现在每次收集的数据批次上仅进行1轮PPO更新即 epoch1就能达到最佳样本效率。增加更新轮次不会带来性能提升反而线性增加训练时间。图预热与最小PPO轮次设计对训练效率的影响。预热大幅加速收敛而单轮更新在保证性能的前提下最为高效。这套方案使得在单个NVIDIA A100 GPU上微调一个7B参数的VLA模型仅需约42小时具备了很强的实用性。三、系统评估RL在哪些方面真正超越了SFT为了全面评估泛化能力研究者构建了一个涵盖三个维度的严格基准• 视觉泛化测试面对未见过的桌面背景、叠加动态纹理或噪声时的鲁棒性。• 语义泛化测试对未见过的物体、容器以及多样化语言指令的理解能力。• 执行泛化测试在物体/容器初始位置变化、机器人初始姿态变化、甚至任务中途物体被意外移动等情况下的鲁棒性。在训练中模型会接触到上述三个维度有限范围内的随机变化。而在测试时则专门引入分布外的挑战例如全新的物体、桌子纹理和干扰项。关键结果RL全面领先尤其在语义与执行层面首先研究者探索了监督微调的性能上限。如图6所示随着演示数据量增加SFT性能在约1.6万条轨迹后达到平台无法再通过增加数据获得显著提升。图监督微调性能随数据规模的变化。在分布内和分布外场景下性能均在约16k条轨迹后饱和。随后他们将达到饱和的SFT模型SFT-16k与PPO微调的模型进行全方位对比。核心结论清晰有力RL微调不仅在训练分布上达到与最佳SFT相当的水平更在分布外泛化上实现了大幅超越。具体而言在未见过的物体和桌子测试中RL相比SFT性能提升了42.6%。更细致的分维度对比如图7和下表所示泛化维度具体任务SFT成功率RL成功率RL相对提升视觉背景变化 (OOD Table)0.800.833.8%动态噪声 (强)0.470.6027.7%语义未见物体 (Single)0.570.8345.6%多物体选择0.500.7754.0%未见容器0.700.9028.6%执行物体/容器位置偏移0.630.9347.6%机器人初始位姿变化0.730.9732.9%任务中物体重定位0.200.63215%表SFT与RL在各类分布外任务上的性能对比。RL在语义和执行泛化上优势显著。图(a) SFT与RL在各任务上的详细性能对比雷达图更直观展示了RL在执行和语义维度的优势。分析解读1、视觉泛化相当RL并未在视觉扰动上表现出显著优势。研究者认为这是因为两种方法的训练都包含了类似的视觉随机化模型从中学习的视觉鲁棒性水平相近。2、语义泛化显著提升面对全新物体RL表现远优于SFT。这表明通过试错RL学习到的是更本质的“抓取”技能减少了对特定物体外观的依赖。3、执行泛化巨大优势这是RL最亮眼的地方。尤其是在“任务中物体重定位”这种极端动态干扰下RL的成功率是SFT的三倍以上。RL智能体学会了在抓取失败或目标移动后主动调整、重新尝试而SFT智能体则倾向于机械地执行预设动作流程。定性洞察RL学到了更丰富的策略空间为何RL能获得更好的泛化能力可视化分析提供了线索。图SFT与RL训练轨迹覆盖范围对比。RL的末端执行器轨迹颜色表示旋转在空间中的探索范围更广、更多样。如图8所示SFT模型的轨迹分布紧密聚集在演示数据提供的运动规划路径周围本质上是“模仿”。而RL模型的轨迹则覆盖了更广阔的工作空间和更多样的姿态这是其通过探索学到的、更丰富的技能集。图9的案例生动展示了这种差异1、在强视觉噪声下SFT智能体抓取后因定位困难而反复掉落物体RL智能体则能克服干扰完成放置。2、面对未见物体SFT智能体出现困惑行为试图抓取已持有的物体RL智能体则能顺利执行。3、当物体被意外移动SFT智能体“无视”变化继续原计划导致失败RL智能体则能重新定位并成功抓取。图SFT与RL在具体挑战性场景下的行为对比。RL展现出更强的适应和恢复能力。四、结论与展望通向更通用机器人智能的强化学习之路这项来自清华大学的研究通过严谨的实证分析明确了强化学习在提升VLA模型泛化能力中的独特价值• 算法有效性PPO是当前微调VLA模型最有效的RL算法优于DPO和GRPO。• 性能增益相比监督微调RL能显著提升模型对语义变化和执行干扰的鲁棒性同时在视觉泛化上保持相当水平。• 实用方案研究提出了一套高效的PPO-VLA微调方案具备实际应用可行性。一个值得注意的技术细节是评论家网络的设计。研究发现使用共享骨干网络并取第一个动作词元对应的隐藏状态作为评论家输入在性能和效率上达到了最佳平衡。这一设计充分利用了VLA模型因果Transformer的特性其中第一个动作词元的位置可能聚合了为生成整个动作序列所需的综合状态信息。这项工作的意义在于它系统性地验证了强化学习作为突破VLA模型“模仿学习”天花板的关键工具。尽管当前实验限于仿真环境中的单一任务但其揭示的原理——通过试错探索获得更本质、更鲁棒的技能表示——为未来开发能适应复杂、开放世界环境的通用具身智能体指明了方向。下一步将RL微调与仿真到真实的迁移技术结合在物理机器人上验证其泛化能力将是激动人心的前沿。

相关新闻

最新新闻

日新闻

周新闻

月新闻