9.3.1 在仿真环境中对 VLA 进行 RL 微调的思路
已经有了基于示教 / BC 训练好的 VLA 模型,本节讨论下一步:如何在仿真环境中用强化学习做“有目标的微调”,把模型从“能做”推到“做得更好、更稳、更符合约束”。
9.3.1.1 场景搭建
(1)观测与动作接口对齐 VLA
对 VLA 做 RL 微调的第一前提,是仿真环境暴露出的“观测–动作”接口,与模型训练时的输入输出严格对齐:
- 观测侧:
- 视觉:仿真中的相机分辨率、视角、FOV 尽量贴近示教数据(第 7 章中采集的图像);
- 机器人状态:关节角、末端位姿、夹爪开合状态等按同样的编码方式拼到输入;
- 语言:每个 episode 开始时给出一条指令,编码为文本 token 或指令 embedding,整个 episode 内保持不变,作为条件。
- 动作侧:
- 若前面章节采用离散动作 token(例如 7 个关节的离散速度档位),则仿真环境需要一个“token→物理控制命令”的解码层;
- 若采用末端 Δ pose / 速度指令,同样需要在环境侧实现将这些增量命令映射到关节控制器。
很多开源 VLA 框架(如 OpenVLA)在代码层面已经实现了这类“统一的 Env wrapper”,既能喂 BC 数据,也能在同样接口上进行 RL 交互,这一点值得参考。(arXiv)
【图片占位:一个方框图,左边是“仿真环境(MuJoCo/Isaac Gym)”,中间是“Env Wrapper(观测打包 + 动作解码)”,右边是“VLA 模型”,箭头表示数据流。】
(2)任务实例与重置逻辑
RL 需要大量 episode,因此要把“任务”刻画得足够清晰:
- 设计初始随机化:物体摆放位置、姿态、颜色微扰,甚至背景纹理、光照随机化,为后续的 sim2real 泛化铺路(与 7.1.4 呼应);
- 定义 终止条件:
- 成功:例如目标物体进入目标区域、门完全关闭、按钮被按下;
- 失败:例如超过最大步数、物体掉落桌面之外、发生严重碰撞;
- 重置逻辑:提供
reset()函数,能自动将环境回到新的初始随机状态,支撑成千上万次 RL episode。
(3)并行环境与多任务场景
为提高样本效率,通常会采用向量化环境:一次并行运行几十甚至上百个仿真实例,每一步将所有实例的观测批量喂入 VLA,再把动作批量返回,使 GPU / TPU 利用率更高。很多多阶段操作任务的 RL 工作都是在这种并行环境下完成的。(OpenReview)
对于通用 VLA,还需要在同一个仿真框架内注册多个任务(如“抓取并放置”“开门”“拉抽屉”)。不同任务可以通过不同的语言指令区分,也可以通过额外的任务 ID embedding 作为条件输入(与 8.5 中的多任务 VLA 架构呼应)。
【图片占位:多任务仿真场景示意图:同一机器人在不同环境中执行“抓取”“开门”“按钮”等任务,每个环境上方标注一条语言指令。】
9.3.1.2 奖励设计
强化学习阶段的“目标”通过奖励函数体现。对 VLA 而言,奖励不只是“成功/失败”,还会影响动作风格(是否平稳、安全、节能)。
(1)稀疏奖励 vs. 稠密奖励
- 稀疏奖励:只有成功时给 +1,其余为 0。实现简单,但是探索难度大;
- 稠密奖励:在成功奖励之外,增加“离目标的距离缩短多少”“把手接近目标物体多少”之类的中间信号,帮助策略更快学会合理路径。多阶段操作任务往往会设计分阶段形状奖励,例如:
- 接近阶段:末端到目标物体的距离减少给正奖励;
- 抓取阶段:夹爪与物体对齐、闭合后仍保持接触给予奖励;
- 放置阶段:物体在目标区域停稳、没有过大速度时给终止奖励。(OpenReview)
(2)语言条件与任务判定
在 VLA 场景中,奖励必须与语言指令所指定的任务 对齐,而不是只看某个几何条件。例如指令是“把红色积木放进蓝色盒子”,奖励不能在机器人把绿色积木放进盒子时给成功信号。常见手法包括:
- 环境中维护“语义对象 ID”(颜色、类别等),成功判定时检查是否符合指令;
- 对于多物体任务,可以让环境根据语言解析结果自动选中“目标物体集合”,仅对这些对象的状态计算奖励。
(3)安全与舒适性奖励
机器人 RL 不能只追求成功率,还要考虑安全性与动作质量:
- 碰撞惩罚:与桌面、大力撞击目标物体时给予负奖励;
- 动作惩罚:对过大的关节速度、加速度施加 L2 正则,鼓励平滑动作;
- 力/扭矩正则:约束末端作用力,避免损坏物体。
(4)手工奖励 vs. 学习奖励
手工奖励设计对简单任务足够,但对“整洁、自然、让人放心”这类高层目标很难写成公式,这正是 9.3.3 将要讨论的**“基于人类偏好的奖励模型”** 的作用:用 RLHF 思路让模型直接学“人喜欢什么样的行为”,再在仿真中用这个学习到的奖励进行 RL 微调。(NeurIPS论文集)
9.3.1.3 微调流程
(1)总体流程概览
在实践中,一个典型的“BC + RL 微调”流程大致如下:
- 加载预训练 VLA:视觉、语言编码器和决策 Transformer 已经在大规模示教数据上通过 BC 训练好;
- 搭建 RL 仿真环境:如前小节,保证观测–动作接口一致;
- 选定 RL 算法:常用 PPO(近端策略优化)或 SAC 等连续控制方法;
- 确定可训练参数范围:
- 全量更新(高算力场景);
- 只更新动作解码头或部分层;
- 使用 LoRA / Adapter 等参数高效微调,仅在少量插入矩阵上做 RL 更新。(arXiv)
【图片占位:RL 微调流程时间轴:左边“BC 预训练模型”,中间“仿真交互采样 + 经验池”,右边“策略更新 + 新策略部署”,循环箭头表示迭代。】
(2)一次 RL 更新的细节
以 PPO 为例,一次更新循环可以分解为:
- 采样阶段:
- 在并行环境中用当前 VLA 策略执行若干步,收集序列 \((o_t, a_t, r_t, \log\pi_\theta(a_t|o_t))\);
- 为了兼顾历史动作和语言条件,把完整的“视觉–语言–动作历史”都打包成 VLA 的输入(与 8.4 中的条件建模保持一致);
- 优势估计:
- 通过一个值函数头(可以复用 VLA 的 backbone)估计各状态价值 \(V_\theta(o_t)\),再计算优势 \(A_t\);
- 策略更新:
- 按 PPO 损失对策略参数做若干次梯度下降,同时限制新旧策略的 KL 距离不超过阈值,避免更新过猛导致行为崩溃;
- (可选)价值头更新:
- 单独优化值函数,使其更好地拟合长期回报。
(3)保持“模仿锚点”:BC + RL 联合损失
如果只用 RL 损失更新,大模型容易在探索过程中学出“奇怪但高奖励”的动作,偏离人类示范分布过远。一个常用技巧是,在 RL 微调时继续加入少量 BC 损失:
\[ \mathcal{L} = \mathcal{L}_{\text{RL}} + \lambda_{\text{BC}}\mathcal{L}_{\text{BC}} , \]
其中 \(\mathcal{L}_{\text{BC}}\) 在随机抽取的一部分示教样本上计算“动作交叉熵”,\(\lambda_{\text{BC}}\) 控制 RL 与模仿之间的平衡。这种做法在多阶段 manipulation 任务中被证明可以显著稳定训练、提高成功率。(OpenReview)
(4)课程式 RL 微调
复杂任务(例如多阶段装配)的 RL 微调往往采用课程学习:
- 第一阶段只在相对简单的子任务上微调(如“接近目标物体”);
- 达到一定成功率后解锁更难子任务(如“抓取 + 放置”);
- 最终在完整任务上进行微调。
这类“分阶段微调 + 课程设计”的思想,与多阶段 RL 和层级策略训练的工作是一致的,会在 9.3.4 中与多范式联合调度一起讨论。(科学直通车)
9.3.2 利用未标注视频做未来预测 / 掩码建模等自监督任务
示教数据和 RL 交互数据通常是昂贵的,而机器人在实验室或现实环境中运行时,会自然产生大量“未标注视频”。这一节讨论如何把这些视频变成 VLA 的“自监督教材”,让模型在不额外依赖人工标注的情况下,获取更强的时空表征与物理直觉。
9.3.2.1 未来帧预测
(1)为什么要预测未来?
直观理解:一个懂“物理”的模型,应该能看到几帧视频就猜到“下一帧会发生什么”。未来帧预测就是把这种直觉变成训练目标:
- 输入:过去若干帧图像 / 视频片段,以及(可选的)动作序列;
- 输出:下一帧图像,或接下来若干帧的压缩 latent 表示;
- 损失:像素级 L1 / L2、感知损失(如在预训练视觉 backbone 上的特征差异)等。
大量工作表明,先学会预测视频,再在此基础上学习控制,可以显著提升机器人策略的样本效率,例如“先训练视频预测模型,再训练逆运动学 / 控制模块”的方法。(GitHub)
【图片占位:世界模型示意图:左侧输入若干历史帧和动作,中间是动态模型,右侧是未来帧或未来 latent 的预测。】
(2)显式像素预测 vs. 潜变量预测
- 显式预测:直接生成下一帧图像,适合展示效果,但易出现模糊、训练开销大;
- 潜变量预测:只在压缩后的特征空间中预测下一步 latent(例如 VAE / Transformer latent),不必重建像素,效率更高,也更容易与 VLA 的视觉 encoder 对接。
在实际系统中,常见做法是:
- 把视频帧送入视觉 backbone(CNN/ViT)得到特征;
- 在这些特征上用一个时序模型(RNN / Transformer)做未来 latent 预测;
- 只在训练时加一个预测损失,推理时则把预测模块当作辅助的“物理感知”结构,不一定需要显式解码出图像。(arXiv)
(3)与 VLA 的结合方式
未来预测可以与 VLA 结合为:
- 预训练阶段:
- 冻结或共享视觉 encoder,在海量机器人或人类操作视频上做未来预测;
- 训练好的 encoder 再被用作 VLA 的视觉 backbone,比 ImageNet 或 CLIP 的表征在控制任务上更有效。(Proceedings of Machine Learning Research)
- 微调阶段的辅助头:
- 在 RL 或 BC 训练时,加一个共享 backbone 的“未来 latent 预测头”,用自监督损失稳定视觉表示,减少由于策略变化带来的分布偏移。
9.3.2.2 时间掩码建模
(1)从图像 MAE 到视频 MAE
在第 3 章中已经介绍过掩码图像建模(MAE)的思想:随机遮挡图像的一部分,让模型重建缺失区域,从而学到结构化表征。对于视频和机器人任务,可以把这个思想推广到时间维度:(ResearchGate)
- 随机遮挡某一帧内部的一部分 patch(空间掩码);
- 或完全遮掉若干连续帧(时间掩码),要求模型根据前后上下文恢复它们。
(2)时间掩码建模的训练形式
典型的时间掩码建模流程:
- 从未标注视频中切出长度为 \(\displaystyle T\) 的序列;
- 随机选择若干时间步 \(t_1,\dots,t_k\) 和空间 patch,设为掩码;
- 用一个视频 Transformer(或 3D CNN)对完整序列编码;
- 在被掩盖的位置上预测对应的像素 / 特征;
- 用 MSE 或交叉熵等损失优化。
这类方法已经在通用视频表征学习和 3D 点云表征中被证明对下游机器人任务非常有帮助,如针对点云的 Masked Point Modeling 可以提供强大的 3D 几何感知能力。(CVF开放获取)
(3)扩展到“视觉–动作–语言”的跨模态掩码
在 VLA 中,我们不仅有视频帧,还有动作 token 和语言 token。可以进一步设计跨模态掩码建模任务:
- 掩码某些时间步的动作 token,让模型根据前后观察与语言推测出缺失动作;
- 掩码部分语言指令(例如物体颜色),逼迫模型从视频中“反向推理”被掩盖信息;
- 同时对视觉、动作、语言做联合掩码,让模型学会模态间的约束关系。
这种“统一序列的掩码重建”形式,与 8.5.1 中的“视觉–语言–动作统一 Transformer”结构天然契合:把所有模态统一看作 token 序列,在预训练阶段用掩码建模,微调阶段改为输出动作策略。(arXiv)
9.3.2.3 多视角一致
在机器人实验室中,常常会为同一个任务布置多个相机视角(俯视、侧视、腕部手眼相机等)。多视角视频不一定都有人工标注,但非常适合做自监督的几何一致性学习 。
(1)对比式多视角一致
最直接的思路是:
- 把同一时间戳的不同视角帧视为“正样本”,不同时间或不同任务的帧视为“负样本”;
- 通过对比学习(类似 CLIP / SimCLR)拉近正样本的嵌入距离、推远负样本;
- 最终得到“对多视角不敏感、但对物体和动作语义敏感”的视觉表征。(Proceedings of Machine Learning Research)
(2)基于几何的视角变换任务
如果相机外参已知,可以要求模型完成更强的任务,例如:
- 给定 A 视角的图像和相机位姿,预测同一时刻 B 视角的图像(视图合成);
- 在 3D 点云场景中,对某一视角点云做掩码建模,同时要求在另一视角下也能进行一致的重建。
这类方法在 3D 视觉预训练中被证明可以学到与抓取、定位相关的几何信息,对机器人操作尤为重要。(CVF开放获取)
(3)与 VLA 的集成
多视角一致性损失可以作为 VLA 视觉 backbone 的自监督正则:
- 在预训练阶段,把来自不同视角的图像都送入同一个视觉 encoder;
- 通过一致性损失约束 encoder 输出,使其在不同视角上形成“同一物体 / 状态”的聚类;
- 微调到 VLA 任务时,即使部署环境只保留一个视角,模型也会对视点变化更鲁棒。
需要注意的是,视频自监督表征未必自动适合控制任务,一些工作专门分析了“视频预训练分布与控制任务分布不匹配”的问题,强调需要在数据选择和任务设计上谨慎,避免学到与机器人决策无关的特征。(tonyzhaozh.github.io)
【图片占位:多相机围绕操作工作区的俯视示意图,箭头表示多视角图像映射到同一特征空间。】
9.3.3 人类偏好 / 反馈数据在机器人任务中的采集方式
即使有了精心设计的奖励函数和大量自监督预训练,机器人行为仍可能与人类期望有偏差:动作过快、看起来危险、虽然完成任务但“很别扭”等。为此,需要把“人觉得好不好”直接变成数据 —— 这就是机器人领域中的 RLHF / 偏好学习。(IBM)
9.3.3.1 人类偏好标注
(1)基本范式:轨迹片段对比
最经典的偏好标注模式源自“深度强化学习来自人类偏好”(Deep RL from Human Preferences)。(NeurIPS论文集) 核心形式是:
- 让机器人在仿真或真实环境中执行策略,记录许多 episode;
- 自动将每条轨迹切成短片段(例如 1–3 秒的视频片);
- 向标注者展示成对片段(A vs. B),并提供对应指令文本;
- 让标注者选择“哪个更符合指令 / 更安全 / 更平稳”。
只要能收集到足够多这类“偏好对”,就可以训练奖励模型(见 9.3.3.2)。
【图片占位:标注界面示意图:两段机器人视频并排播放,下方有“更好 / 一样好 / 更差”的选项按钮。】
(2)多种标注形式
除了二选一,还可以设计不同形式的偏好:
- 排序标注:一次展示 3–4 个短片段,标注者按好坏排序;
- 打分标注:对每个片段给 1–5 星的评分,评价“自然度”“安全感”等维度;
- 文本反馈:允许标注者写一句简短文字,如“太快”“夹爪撞到杯子”,后续可以用语言模型把这些评论转为奖励信号或规则。
实践中,为了减轻标注负担,通常倾向于成对比较 + 简单按钮,这也是当前 RLHF 系统中使用最广的形式。(GitHub)
(3)谁来标注?标注质量如何控制?
- 机器人领域的偏好标注可以由实验室成员完成,也可以通过众包平台收集非专家标注;
- 为保证质量,可以:
- 设计“金标准”片段,偶尔混入标注界面,用来检测标注者是否认真;
- 计算标注者间一致性,过滤掉与多数人差异极大的标注;
- 使用简单的界面提示说明标注标准,例如“更接近目标、更少多余动作、更安全”。
9.3.3.2 反馈融入训练
(1)奖励模型:从偏好到标量奖励
偏好数据本身是“谁更好”的相对信息,需要通过奖励模型(Reward Model) 转成标量奖励。典型做法是:(IntuitionLabs)
- 复用 VLA 的视觉–语言–动作 encoder,对每个候选片段输出一个标量 \(R_\phi(\tau)\);
- 用偏好交叉熵损失 训练:
- 若人类偏好片段 A 胜过 B,则让模型输出的 \(R_\phi(\tau_A)\) 大于 \(R_\phi(\tau_B)\),通过 logistic / softmax 形式拟合“被选中概率”;
- 训练完成后,奖励模型即可对任意新轨迹估计“人类偏好程度”。
(2)基于人类奖励的 RL 微调(RLHF for Robotics)
得到奖励模型后,可以像在语言模型 RLHF 中那样,对机器人策略进行第二阶段 RL 微调:
- 在仿真环境中执行当前策略,记录轨迹;
- 用奖励模型 \(R_\phi\) 评估轨迹,并将输出作为奖励信号;
- 使用 PPO / SAC 等算法优化 VLA 策略,使其倾向于产生高奖励轨迹。
有研究系统性分析了 RLHF 和偏好奖励在机器人任务中的作用,表明在缺少精确手工奖励,或手工奖励难以刻画人类主观标准时,这种方式更加灵活。(arXiv)
(3)偏好直接约束策略 / 过滤数据
除了用奖励模型做 RL,还可以更直接地把偏好用于监督或数据过滤:
- 偏好加权 BC:在行为克隆损失中对“人类喜爱的轨迹”加大权重,对被判定为糟糕的轨迹降权甚至直接丢弃;
- 采样时过滤:在从虚拟回放缓冲区采样 RL 数据时,用奖励模型筛选掉奖励明显过低的样本;
- 动作后验过滤:在策略输出候选动作后,用奖励模型预估短期走势,将明显不符合偏好的动作拒绝掉(类似“安全过滤器”)。
这些方式在工程上往往比全量 RLHF pipeline 更简单,适合资源有限的实验环境。(GitHub)
9.3.3.3 实践难点
在机器人任务中应用人类偏好 / 反馈,常见问题主要集中在以下几点:
(1)反馈成本高、样本效率低
- 每次偏好标注都需要人观看视频并作出判断,尤其是长任务会极大消耗时间;
- 解决思路包括:
- 将轨迹切成 1–3 秒短片段,减少每次评估的认知负担;
- 对策略变化不大的阶段减少标注频率,只在模型行为发生明显变化时采集新偏好;
- 使用主动学习策略,从大量候选片段中挑选“最有信息量”的少数来标注。(NeurIPS论文集)
(2)偏好不一致、奖励模型不稳定
不同人对“好行为”的理解不完全一致,甚至同一个人在不同时间的判断也会摇摆,从而造成奖励模型训练的不稳定。解决办法包括:
- 在奖励模型中加入正则化或先验约束,使其在未充分观测区域不过度自信;
- 显式建模“不同人群的多样偏好”,例如在 latent 空间对奖励模型的输出做平滑,减小少数极端标注的影响。(IJCAI)
(3)奖励黑客与安全风险
如果奖励模型定义得不够全面,策略可能学会“骗奖励模型”而非真正做好任务,这在 RLHF 文献中被反复强调。(IntuitionLabs)
在机器人场景下的表现形式包括:
- 看起来“勉强完成任务”但动作很危险,如幅度过大、距离人体过近;
- 过度追求奖励模型看中的某个指标(如速度),牺牲其它重要方面。
因此在实践中,通常需要将人类偏好奖励与安全硬约束(第 10.3 节)结合:即使奖励模型高分,只要触碰安全界限,动作仍然会被硬件 / 规划层拒绝。
9.3.4 多范式联合训练的调度(先 BC 再 RL,再自监督等组合)
前面几节分别讨论了 BC、RL、自监督、偏好学习等单一范式。本节的重点,是如何把这些范式在时间轴上合理编排,使 VLA 在有限算力和数据下高效成长,而不是“先做一堆预训练,再做一堆 RL”这么粗糙。
9.3.4.1 阶段划分
一种典型的“分阶段”训练 pipeline 可以概括为:
- 阶段 0:自监督 / 多模态预训练
- 使用海量未标注视频、图文数据做掩码建模、对比学习、未来帧预测等,得到通用视觉–语言–时序表示(对应 9.1 节);(Proceedings of Machine Learning Research)
- 阶段 1:行为克隆(BC)
- 在机器人示教轨迹上训练 VLA,使其基本能完成各类任务(对应 9.2);
- 阶段 2:RL 微调
- 在仿真环境或部分真实环境中,根据手工或学习的奖励进一步优化策略,提升成功率和鲁棒性(9.3.1);(OpenReview)
- 阶段 3:基于人类反馈的对齐
- 通过 RLHF 或偏好加权 BC,使策略更符合人类主观标准(9.3.3)。
每个阶段可以有自己的“收敛判据”:例如自监督阶段看重自监督损失与线性探针性能,BC 阶段关注离线动作预测准确率与离线成功率,RL 阶段关注在线成功率曲线。
【图片占位:时间轴示意图:Stage0 自监督 → Stage1 BC → Stage2 RL → Stage3 RLHF,每个阶段标注输入数据类型和主要目标。】
9.3.4.2 交替训练
现实中,完全“分块训练”往往利用不充分,越来越多的工作采用交替式 / 迭代式 训练策略:
(1)BC 与 RL 的交替
常见模式是:
- 先用 BC 训练一个可用的初始策略;
- 然后在 RL 微调时,每隔若干更新 iteration 插入一段 BC 训练:
- 要么在同一个模型上加一个 BC 损失;
- 要么维护一个“演示缓存”,用较高权重回放演示数据,防止策略严重偏离人类行为。
这类“示教–自我探索–再示教”的循环,在多阶段 manipulation 和层级 RL 方法中已经得到验证。(Proceedings of Machine Learning Research)
(2)RL 与自监督的交替
另一种交替是RL 更新策略,自监督更新表征:
- 当策略收集到新的交互数据后,不仅用它来做 RL,也将视觉帧加入自监督训练(如新的掩码建模、未来预测);
- 自监督更新后的视觉 backbone 再惠及 RL 策略,使其在新的环境配置上仍能提取有效特征。
这类“自生成数据 + 自监督表征”的循环,有助于缓解“互联网视频分布与机器人真实分布不一致”的问题。(tonyzhaozh.github.io)
(3)在线偏好收集与 RLHF 交替
偏好学习也可以与 RL 交替进行:
- 在策略更新一定轮次后,采样新的轨迹片段,收集新一轮人类偏好标注;
- 用新数据微调奖励模型,再用更新后的奖励模型对策略进行 RLHF;
- 反复迭代,使奖励模型和策略一起逐步逼近人类期望。(arXiv)
9.3.4.3 动态权衡
多范式联合训练的核心困难,是如何动态地平衡各个损失项和训练信号,避免某一范式“压倒性主导”,导致模型遗忘或偏科。
(1)多目标损失的基本形式
一个典型的联合损失可以写成:
\[ \mathcal{L} = \lambda_{\text{BC}}\mathcal{L}_{\text{BC}} + \lambda_{\text{RL}}\mathcal{L}_{\text{RL}} + \lambda_{\text{SSL}}\mathcal{L}_{\text{SSL}} + \lambda_{\text{reg}}\mathcal{L}_{\text{reg}} , \]
其中:
- \(\mathcal{L}_{\text{BC}}\):来自示教数据的行为克隆损失;
- \(\mathcal{L}_{\text{RL}}\):策略梯度 / 值函数相关损失;
- \(\mathcal{L}_{\text{SSL}}\):掩码建模、未来预测、对比学习等自监督损失;
- \(\mathcal{L}_{\text{reg}}\):正则化 / KL 约束等。
关键在于如何设置并动态调整这些 \(\lambda\)。
(2)基于训练阶段的权重调度
最简单的做法是“手工调度”:
- 训练早期:\(\lambda_{\text{BC}}\) 较大,强调模仿示范,保证基本可行;
- 中期:逐步增大 \(\lambda_{\text{RL}}\),鼓励策略在安全范围内探索更优解;
- 自监督项 \(\lambda_{\text{SSL}}\) 则保持相对稳定,作为“表征稳定器”;
- 如果观察到策略出现严重偏离人类演示(例如动作风格明显怪异),可以暂时提升 \(\lambda_{\text{BC}}\) 或对策略施加更严格的 KL 正则,使其回到演示附近。(OpenReview)
(3)基于统计信号的自适应权衡
更高级的做法是让系统根据训练信号自动调整权重:
- 使用多任务学习中的“梯度归一化”技巧,根据各损失项的梯度范数动态调整 \(\lambda\),防止其中某个损失的梯度过大或过小;
- 根据验证集性能(例如离线成功率、在线 RL 成功率)做闭环控制:
- 若发现 RL 奖励持续上升而偏好评分下降,则适当增加 BC / 偏好相关损失的权重;
- 反之,如果 BC 准确率很高但 RL 成功率停滞,则增加 RL 损失权重或探索强度。(科学直通车)
(4)“策略先验”视角:BC / 自监督作为正则,而非单独阶段
从更抽象的角度看,BC 和自监督都可以视作对策略施加的“先验”:
- BC 先验:鼓励策略保持接近人类示范(在策略空间上的 KL 正则或 L2 正则);
- 自监督先验:鼓励视觉–语言–动作表征保持对结构 / 物理规律的良好刻画;
- RL 则在这些先验下寻找“在任务目标下最优”的后验策略。
这样理解,多范式联合训练就不再是“几个阶段拼接”,而是一个统一的贝叶斯视角:先用自监督与 BC 捕获强先验,再用 RL 和人类偏好进行后验更新。未来更通用的具身基础模型,很可能会在一个超长时间尺度上不断循环这个过程 —— 永远一边观察世界、一边接受指令、一边在行动中调整自己。