9.3 进阶训练：RL、自监督与反馈学习 - Robotic Embodied Intelligence

9.3.1 在仿真环境中对 VLA 进行 RL 微调的思路

学习导航

本章主题：9.3.1 在仿真环境中对 VLA 进行 RL 微调的思路

前置知识：建议先完成第 8 章模型架构。

建议用时：97-117 分钟

阅读顺序：先看概念框架，再看公式/代码，最后做自测。

已经有了基于示教 / BC 训练好的 VLA 模型，本节讨论下一步：如何在仿真环境中用强化学习做“有目标的微调”，把模型从“能做”推到“做得更好、更稳、更符合约束”。

9.3.1.1 场景搭建

（1）观测与动作接口对齐 VLA

对 VLA 做 RL 微调的第一前提，是仿真环境暴露出的“观测–动作”接口，与模型训练时的输入输出严格对齐：

+观测侧：

视觉：仿真中的相机分辨率、视角、FOV 尽量贴近示教数据（第 7 章中采集的图像）；
机器人状态：关节角、末端位姿、夹爪开合状态等按同样的编码方式拼到输入；
语言：每个 episode 开始时给出一条指令，编码为文本 token 或指令 embedding，整个 episode 内保持不变，作为条件。 +动作侧：
若前面章节采用离散动作 token（例如 7 个关节的离散速度档位），则仿真环境需要一个“token→物理控制命令”的解码层；
若采用末端 Δ pose / 速度指令，同样需要在环境侧实现将这些增量命令映射到关节控制器。

很多开源 VLA 框架（如 OpenVLA）在代码层面已经实现了这类“统一的 Env wrapper”，既能喂 BC 数据，也能在同样接口上进行 RL 交互，这一点值得参考。(arXiv)

【图片占位：一个方框图，左边是“仿真环境（MuJoCo/Isaac Gym）”，中间是“Env Wrapper（观测打包 + 动作解码）”，右边是“VLA 模型”，箭头表示数据流。】

（2）任务实例与重置逻辑

RL 需要大量 episode，因此要把“任务”刻画得足够清晰：

设计初始随机化：物体摆放位置、姿态、颜色微扰，甚至背景纹理、光照随机化，为后续的 sim2real 泛化铺路（与 7.1.4 呼应）；
定义终止条件：
- 成功：例如目标物体进入目标区域、门完全关闭、按钮被按下；
- 失败：例如超过最大步数、物体掉落桌面之外、发生严重碰撞；
重置逻辑：提供 reset() 函数，能自动将环境回到新的初始随机状态，支撑成千上万次 RL episode。

（3）并行环境与多任务场景

为提高样本效率，通常会采用向量化环境：一次并行运行几十甚至上百个仿真实例，每一步将所有实例的观测批量喂入 VLA，再把动作批量返回，使 GPU / TPU 利用率更高。很多多阶段操作任务的 RL 工作都是在这种并行环境下完成的。(OpenReview)

对于通用 VLA，还需要在同一个仿真框架内注册多个任务（如“抓取并放置”“开门”“拉抽屉”）。不同任务可以通过不同的语言指令区分，也可以通过额外的任务 ID embedding 作为条件输入（与 8.5 中的多任务 VLA 架构呼应）。

【图片占位：多任务仿真场景示意图：同一机器人在不同环境中执行“抓取”“开门”“按钮”等任务，每个环境上方标注一条语言指令。】

9.3.1.2 奖励设计

强化学习阶段的“目标”通过奖励函数体现。对 VLA 而言，奖励不只是“成功/失败”，还会影响动作风格（是否平稳、安全、节能）。

（1）稀疏奖励 vs. 稠密奖励

+稀疏奖励：只有成功时给 +1，其余为 0。实现简单，但是探索难度大； +稠密奖励：在成功奖励之外，增加“离目标的距离缩短多少”“把手接近目标物体多少”之类的中间信号，帮助策略更快学会合理路径。多阶段操作任务往往会设计分阶段形状奖励，例如：

接近阶段：末端到目标物体的距离减少给正奖励；
抓取阶段：夹爪与物体对齐、闭合后仍保持接触给予奖励；
放置阶段：物体在目标区域停稳、没有过大速度时给终止奖励。(OpenReview)

（2）语言条件与任务判定

在 VLA 场景中，奖励必须与语言指令所指定的任务对齐，而不是只看某个几何条件。例如指令是“把红色积木放进蓝色盒子”，奖励不能在机器人把绿色积木放进盒子时给成功信号。常见手法包括：

环境中维护“语义对象 ID”（颜色、类别等），成功判定时检查是否符合指令；
对于多物体任务，可以让环境根据语言解析结果自动选中“目标物体集合”，仅对这些对象的状态计算奖励。

（3）安全与舒适性奖励

机器人 RL 不能只追求成功率，还要考虑安全性与动作质量：

碰撞惩罚：与桌面、大力撞击目标物体时给予负奖励；
动作惩罚：对过大的关节速度、加速度施加 L2 正则，鼓励平滑动作；
力/扭矩正则：约束末端作用力，避免损坏物体。

（4）手工奖励 vs. 学习奖励

手工奖励设计对简单任务足够，但对“整洁、自然、让人放心”这类高层目标很难写成公式，这正是 9.3.3 将要讨论的**“基于人类偏好的奖励模型”**的作用：用 RLHF 思路让模型直接学“人喜欢什么样的行为”，再在仿真中用这个学习到的奖励进行 RL 微调。(NeurIPS论文集)

9.3.1.3 微调流程

（1）总体流程概览

在实践中，一个典型的“BC + RL 微调”流程大致如下：

1.加载预训练 VLA：视觉、语言编码器和决策 Transformer 已经在大规模示教数据上通过 BC 训练好； 2.搭建 RL 仿真环境：如前小节，保证观测–动作接口一致； 3.选定 RL 算法：常用 PPO（近端策略优化）或 SAC 等连续控制方法； 4.确定可训练参数范围：

全量更新（高算力场景）；
只更新动作解码头或部分层；
使用 LoRA / Adapter 等参数高效微调，仅在少量插入矩阵上做 RL 更新。(arXiv)

【图片占位：RL 微调流程时间轴：左边“BC 预训练模型”，中间“仿真交互采样 + 经验池”，右边“策略更新 + 新策略部署”，循环箭头表示迭代。】

（2）一次 RL 更新的细节

以 PPO 为例，一次更新循环可以分解为：

+采样阶段：

在并行环境中用当前 VLA 策略执行若干步，收集序列 \((o_t, a_t, r_t, \log\pi_\theta(a_t|o_t))\)；
为了兼顾历史动作和语言条件，把完整的“视觉–语言–动作历史”都打包成 VLA 的输入（与 8.4 中的条件建模保持一致）； +优势估计：
通过一个值函数头（可以复用 VLA 的 backbone）估计各状态价值 \(V_\theta(o_t)\)，再计算优势 \(A_t\)； +策略更新：
按 PPO 损失对策略参数做若干次梯度下降，同时限制新旧策略的 KL 距离不超过阈值，避免更新过猛导致行为崩溃； +（可选）价值头更新：
单独优化值函数，使其更好地拟合长期回报。

（3）保持“模仿锚点”：BC + RL 联合损失

如果只用 RL 损失更新，大模型容易在探索过程中学出“奇怪但高奖励”的动作，偏离人类示范分布过远。一个常用技巧是，在 RL 微调时继续加入少量 BC 损失：

\[ \mathcal{L} = \mathcal{L}_{\text{RL}} + \lambda_{\text{BC}}\mathcal{L}_{\text{BC}} , \]

其中 \(\mathcal{L}_{\text{BC}}\) 在随机抽取的一部分示教样本上计算“动作交叉熵”，\(\lambda_{\text{BC}}\) 控制 RL 与模仿之间的平衡。这种做法在多阶段 manipulation 任务中被证明可以显著稳定训练、提高成功率。(OpenReview)

（4）课程式 RL 微调

复杂任务（例如多阶段装配）的 RL 微调往往采用课程学习：

第一阶段只在相对简单的子任务上微调（如“接近目标物体”）；
达到一定成功率后解锁更难子任务（如“抓取 + 放置”）；
最终在完整任务上进行微调。

这类“分阶段微调 + 课程设计”的思想，与多阶段 RL 和层级策略训练的工作是一致的，会在 9.3.4 中与多范式联合调度一起讨论。(科学直通车)

9.3.2 利用未标注视频做未来预测 / 掩码建模等自监督任务

示教数据和 RL 交互数据通常是昂贵的，而机器人在实验室或现实环境中运行时，会自然产生大量“未标注视频”。这一节讨论如何把这些视频变成 VLA 的“自监督教材”，让模型在不额外依赖人工标注的情况下，获取更强的时空表征与物理直觉。

9.3.2.1 未来帧预测

（1）为什么要预测未来？

直观理解：一个懂“物理”的模型，应该能看到几帧视频就猜到“下一帧会发生什么”。未来帧预测就是把这种直觉变成训练目标：

输入：过去若干帧图像 / 视频片段，以及（可选的）动作序列；
输出：下一帧图像，或接下来若干帧的压缩 latent 表示；
损失：像素级 L1 / L2、感知损失（如在预训练视觉 backbone 上的特征差异）等。

大量工作表明，先学会预测视频，再在此基础上学习控制，可以显著提升机器人策略的样本效率，例如“先训练视频预测模型，再训练逆运动学 / 控制模块”的方法。(GitHub)

【图片占位：世界模型示意图：左侧输入若干历史帧和动作，中间是动态模型，右侧是未来帧或未来 latent 的预测。】

（2）显式像素预测 vs. 潜变量预测

显式预测：直接生成下一帧图像，适合展示效果，但易出现模糊、训练开销大；
潜变量预测：只在压缩后的特征空间中预测下一步 latent（例如 VAE / Transformer latent），不必重建像素，效率更高，也更容易与 VLA 的视觉 encoder 对接。

在实际系统中，常见做法是：

把视频帧送入视觉 backbone（CNN/ViT）得到特征；
在这些特征上用一个时序模型（RNN / Transformer）做未来 latent 预测；
只在训练时加一个预测损失，推理时则把预测模块当作辅助的“物理感知”结构，不一定需要显式解码出图像。(arXiv)

（3）与 VLA 的结合方式

未来预测可以与 VLA 结合为：

+预训练阶段：

冻结或共享视觉 encoder，在海量机器人或人类操作视频上做未来预测；
训练好的 encoder 再被用作 VLA 的视觉 backbone，比 ImageNet 或 CLIP 的表征在控制任务上更有效。(Proceedings of Machine Learning Research) +微调阶段的辅助头：
在 RL 或 BC 训练时，加一个共享 backbone 的“未来 latent 预测头”，用自监督损失稳定视觉表示，减少由于策略变化带来的分布偏移。

9.3.2.2 时间掩码建模

（1）从图像 MAE 到视频 MAE

在第 3 章中已经介绍过掩码图像建模（MAE）的思想：随机遮挡图像的一部分，让模型重建缺失区域，从而学到结构化表征。对于视频和机器人任务，可以把这个思想推广到时间维度：(ResearchGate)

随机遮挡某一帧内部的一部分 patch（空间掩码）；
或完全遮掉若干连续帧（时间掩码），要求模型根据前后上下文恢复它们。

（2）时间掩码建模的训练形式

典型的时间掩码建模流程：

从未标注视频中切出长度为 \(\displaystyle T\) 的序列；
随机选择若干时间步 \(t_1,\dots,t_k\) 和空间 patch，设为掩码；
用一个视频 Transformer（或 3D CNN）对完整序列编码；
在被掩盖的位置上预测对应的像素 / 特征；
用 MSE 或交叉熵等损失优化。

这类方法已经在通用视频表征学习和 3D 点云表征中被证明对下游机器人任务非常有帮助，如针对点云的 Masked Point Modeling 可以提供强大的 3D 几何感知能力。(CVF开放获取)

（3）扩展到“视觉–动作–语言”的跨模态掩码

在 VLA 中，我们不仅有视频帧，还有动作 token 和语言 token。可以进一步设计跨模态掩码建模任务：

掩码某些时间步的动作 token，让模型根据前后观察与语言推测出缺失动作；
掩码部分语言指令（例如物体颜色），逼迫模型从视频中“反向推理”被掩盖信息；
同时对视觉、动作、语言做联合掩码，让模型学会模态间的约束关系。

这种“统一序列的掩码重建”形式，与 8.5.1 中的“视觉–语言–动作统一 Transformer”结构天然契合：把所有模态统一看作 token 序列，在预训练阶段用掩码建模，微调阶段改为输出动作策略。(arXiv)

9.3.2.3 多视角一致

在机器人实验室中，常常会为同一个任务布置多个相机视角（俯视、侧视、腕部手眼相机等）。多视角视频不一定都有人工标注，但非常适合做自监督的几何一致性学习。

（1）对比式多视角一致

最直接的思路是：

把同一时间戳的不同视角帧视为“正样本”，不同时间或不同任务的帧视为“负样本”；
通过对比学习（类似 CLIP / SimCLR）拉近正样本的嵌入距离、推远负样本；
最终得到“对多视角不敏感、但对物体和动作语义敏感”的视觉表征。(Proceedings of Machine Learning Research)

（2）基于几何的视角变换任务

如果相机外参已知，可以要求模型完成更强的任务，例如：

给定 A 视角的图像和相机位姿，预测同一时刻 B 视角的图像（视图合成）；
在 3D 点云场景中，对某一视角点云做掩码建模，同时要求在另一视角下也能进行一致的重建。

这类方法在 3D 视觉预训练中被证明可以学到与抓取、定位相关的几何信息，对机器人操作尤为重要。(CVF开放获取)

（3）与 VLA 的集成

多视角一致性损失可以作为 VLA 视觉 backbone 的自监督正则：

在预训练阶段，把来自不同视角的图像都送入同一个视觉 encoder；
通过一致性损失约束 encoder 输出，使其在不同视角上形成“同一物体 / 状态”的聚类；
微调到 VLA 任务时，即使部署环境只保留一个视角，模型也会对视点变化更鲁棒。

需要注意的是，视频自监督表征未必自动适合控制任务，一些工作专门分析了“视频预训练分布与控制任务分布不匹配”的问题，强调需要在数据选择和任务设计上谨慎，避免学到与机器人决策无关的特征。(tonyzhaozh.github.io)

【图片占位：多相机围绕操作工作区的俯视示意图，箭头表示多视角图像映射到同一特征空间。】

9.3.3 人类偏好 / 反馈数据在机器人任务中的采集方式

即使有了精心设计的奖励函数和大量自监督预训练，机器人行为仍可能与人类期望有偏差：动作过快、看起来危险、虽然完成任务但“很别扭”等。为此，需要把“人觉得好不好”直接变成数据 —— 这就是机器人领域中的 RLHF / 偏好学习。(IBM)

9.3.3.1 人类偏好标注

（1）基本范式：轨迹片段对比

最经典的偏好标注模式源自“深度强化学习来自人类偏好”（Deep RL from Human Preferences）。(NeurIPS论文集) 核心形式是：

让机器人在仿真或真实环境中执行策略，记录许多 episode；
自动将每条轨迹切成短片段（例如 1–3 秒的视频片）；
向标注者展示成对片段（A vs. B），并提供对应指令文本；
让标注者选择“哪个更符合指令 / 更安全 / 更平稳”。

只要能收集到足够多这类“偏好对”，就可以训练奖励模型（见 9.3.3.2）。

【图片占位：标注界面示意图：两段机器人视频并排播放，下方有“更好 / 一样好 / 更差”的选项按钮。】

（2）多种标注形式

除了二选一，还可以设计不同形式的偏好：

+排序标注：一次展示 3–4 个短片段，标注者按好坏排序； +打分标注：对每个片段给 1–5 星的评分，评价“自然度”“安全感”等维度； +文本反馈：允许标注者写一句简短文字，如“太快”“夹爪撞到杯子”，后续可以用语言模型把这些评论转为奖励信号或规则。

实践中，为了减轻标注负担，通常倾向于成对比较 + 简单按钮，这也是当前 RLHF 系统中使用最广的形式。(GitHub)

（3）谁来标注？标注质量如何控制？

机器人领域的偏好标注可以由实验室成员完成，也可以通过众包平台收集非专家标注；
为保证质量，可以：
- 设计“金标准”片段，偶尔混入标注界面，用来检测标注者是否认真；
- 计算标注者间一致性，过滤掉与多数人差异极大的标注；
- 使用简单的界面提示说明标注标准，例如“更接近目标、更少多余动作、更安全”。

9.3.3.2 反馈融入训练

（1）奖励模型：从偏好到标量奖励

偏好数据本身是“谁更好”的相对信息，需要通过**奖励模型（Reward Model）**转成标量奖励。典型做法是：(IntuitionLabs)

复用 VLA 的视觉–语言–动作 encoder，对每个候选片段输出一个标量 \(R_\phi(\tau)\)；
用偏好交叉熵损失训练：
- 若人类偏好片段 A 胜过 B，则让模型输出的 \(R_\phi(\tau_A)\) 大于 \(R_\phi(\tau_B)\)，通过 logistic / softmax 形式拟合“被选中概率”；
训练完成后，奖励模型即可对任意新轨迹估计“人类偏好程度”。

（2）基于人类奖励的 RL 微调（RLHF for Robotics）

得到奖励模型后，可以像在语言模型 RLHF 中那样，对机器人策略进行第二阶段 RL 微调：

在仿真环境中执行当前策略，记录轨迹；
用奖励模型 \(R_\phi\) 评估轨迹，并将输出作为奖励信号；
使用 PPO / SAC 等算法优化 VLA 策略，使其倾向于产生高奖励轨迹。

有研究系统性分析了 RLHF 和偏好奖励在机器人任务中的作用，表明在缺少精确手工奖励，或手工奖励难以刻画人类主观标准时，这种方式更加灵活。(arXiv)

（3）偏好直接约束策略 / 过滤数据

除了用奖励模型做 RL，还可以更直接地把偏好用于监督或数据过滤：

+偏好加权 BC：在行为克隆损失中对“人类喜爱的轨迹”加大权重，对被判定为糟糕的轨迹降权甚至直接丢弃； +采样时过滤：在从虚拟回放缓冲区采样 RL 数据时，用奖励模型筛选掉奖励明显过低的样本； +动作后验过滤：在策略输出候选动作后，用奖励模型预估短期走势，将明显不符合偏好的动作拒绝掉（类似“安全过滤器”）。

这些方式在工程上往往比全量 RLHF pipeline 更简单，适合资源有限的实验环境。(GitHub)

9.3.3.3 实践难点

在机器人任务中应用人类偏好 / 反馈，常见问题主要集中在以下几点：

（1）反馈成本高、样本效率低

每次偏好标注都需要人观看视频并作出判断，尤其是长任务会极大消耗时间；
解决思路包括：
- 将轨迹切成 1–3 秒短片段，减少每次评估的认知负担；
- 对策略变化不大的阶段减少标注频率，只在模型行为发生明显变化时采集新偏好；
- 使用主动学习策略，从大量候选片段中挑选“最有信息量”的少数来标注。(NeurIPS论文集)

（2）偏好不一致、奖励模型不稳定

不同人对“好行为”的理解不完全一致，甚至同一个人在不同时间的判断也会摇摆，从而造成奖励模型训练的不稳定。解决办法包括：

在奖励模型中加入正则化或先验约束，使其在未充分观测区域不过度自信；
显式建模“不同人群的多样偏好”，例如在 latent 空间对奖励模型的输出做平滑，减小少数极端标注的影响。(IJCAI)

（3）奖励黑客与安全风险

如果奖励模型定义得不够全面，策略可能学会“骗奖励模型”而非真正做好任务，这在 RLHF 文献中被反复强调。(IntuitionLabs)

在机器人场景下的表现形式包括：

看起来“勉强完成任务”但动作很危险，如幅度过大、距离人体过近；
过度追求奖励模型看中的某个指标（如速度），牺牲其它重要方面。

因此在实践中，通常需要将人类偏好奖励与安全硬约束（第 10.3 节）结合：即使奖励模型高分，只要触碰安全界限，动作仍然会被硬件 / 规划层拒绝。

9.3.4 多范式联合训练的调度（先 BC 再 RL，再自监督等组合）

前面几节分别讨论了 BC、RL、自监督、偏好学习等单一范式。本节的重点，是如何把这些范式在时间轴上合理编排，使 VLA 在有限算力和数据下高效成长，而不是“先做一堆预训练，再做一堆 RL”这么粗糙。

9.3.4.1 阶段划分

一种典型的“分阶段”训练 pipeline 可以概括为：

1.阶段 0：自监督 / 多模态预训练

使用海量未标注视频、图文数据做掩码建模、对比学习、未来帧预测等，得到通用视觉–语言–时序表示（对应 9.1 节）；(Proceedings of Machine Learning Research) 2.阶段 1：行为克隆（BC）
在机器人示教轨迹上训练 VLA，使其基本能完成各类任务（对应 9.2）； 3.阶段 2：RL 微调
在仿真环境或部分真实环境中，根据手工或学习的奖励进一步优化策略，提升成功率和鲁棒性（9.3.1）；(OpenReview) 4.阶段 3：基于人类反馈的对齐
通过 RLHF 或偏好加权 BC，使策略更符合人类主观标准（9.3.3）。

每个阶段可以有自己的“收敛判据”：例如自监督阶段看重自监督损失与线性探针性能，BC 阶段关注离线动作预测准确率与离线成功率，RL 阶段关注在线成功率曲线。

【图片占位：时间轴示意图：Stage0 自监督 → Stage1 BC → Stage2 RL → Stage3 RLHF，每个阶段标注输入数据类型和主要目标。】

9.3.4.2 交替训练

现实中，完全“分块训练”往往利用不充分，越来越多的工作采用交替式 / 迭代式训练策略：

（1）BC 与 RL 的交替

常见模式是：

先用 BC 训练一个可用的初始策略；
然后在 RL 微调时，每隔若干更新 iteration 插入一段 BC 训练：
- 要么在同一个模型上加一个 BC 损失；
- 要么维护一个“演示缓存”，用较高权重回放演示数据，防止策略严重偏离人类行为。

这类“示教–自我探索–再示教”的循环，在多阶段 manipulation 和层级 RL 方法中已经得到验证。(Proceedings of Machine Learning Research)

（2）RL 与自监督的交替

另一种交替是RL 更新策略，自监督更新表征：

当策略收集到新的交互数据后，不仅用它来做 RL，也将视觉帧加入自监督训练（如新的掩码建模、未来预测）；
自监督更新后的视觉 backbone 再惠及 RL 策略，使其在新的环境配置上仍能提取有效特征。

这类“自生成数据 + 自监督表征”的循环，有助于缓解“互联网视频分布与机器人真实分布不一致”的问题。(tonyzhaozh.github.io)

（3）在线偏好收集与 RLHF 交替

偏好学习也可以与 RL 交替进行：

在策略更新一定轮次后，采样新的轨迹片段，收集新一轮人类偏好标注；
用新数据微调奖励模型，再用更新后的奖励模型对策略进行 RLHF；
反复迭代，使奖励模型和策略一起逐步逼近人类期望。(arXiv)

9.3.4.3 动态权衡

多范式联合训练的核心困难，是如何动态地平衡各个损失项和训练信号，避免某一范式“压倒性主导”，导致模型遗忘或偏科。

（1）多目标损失的基本形式

一个典型的联合损失可以写成：

\[ \mathcal{L} = \lambda_{\text{BC}}\mathcal{L}_{\text{BC}} + \lambda_{\text{RL}}\mathcal{L}_{\text{RL}} + \lambda_{\text{SSL}}\mathcal{L}_{\text{SSL}} + \lambda_{\text{reg}}\mathcal{L}_{\text{reg}} , \]

其中：

\(\mathcal{L}_{\text{BC}}\)：来自示教数据的行为克隆损失；
\(\mathcal{L}_{\text{RL}}\)：策略梯度 / 值函数相关损失；
\(\mathcal{L}_{\text{SSL}}\)：掩码建模、未来预测、对比学习等自监督损失；
\(\mathcal{L}_{\text{reg}}\)：正则化 / KL 约束等。

关键在于如何设置并动态调整这些 \(\lambda\)。

（2）基于训练阶段的权重调度

最简单的做法是“手工调度”：

训练早期：\(\lambda_{\text{BC}}\) 较大，强调模仿示范，保证基本可行；
中期：逐步增大 \(\lambda_{\text{RL}}\)，鼓励策略在安全范围内探索更优解；
自监督项 \(\lambda_{\text{SSL}}\) 则保持相对稳定，作为“表征稳定器”；
如果观察到策略出现严重偏离人类演示（例如动作风格明显怪异），可以暂时提升 \(\lambda_{\text{BC}}\) 或对策略施加更严格的 KL 正则，使其回到演示附近。(OpenReview)

（3）基于统计信号的自适应权衡

更高级的做法是让系统根据训练信号自动调整权重：

使用多任务学习中的“梯度归一化”技巧，根据各损失项的梯度范数动态调整 \(\lambda\)，防止其中某个损失的梯度过大或过小；
根据验证集性能（例如离线成功率、在线 RL 成功率）做闭环控制：
- 若发现 RL 奖励持续上升而偏好评分下降，则适当增加 BC / 偏好相关损失的权重；
- 反之，如果 BC 准确率很高但 RL 成功率停滞，则增加 RL 损失权重或探索强度。(科学直通车)

（4）“策略先验”视角：BC / 自监督作为正则，而非单独阶段

从更抽象的角度看，BC 和自监督都可以视作对策略施加的“先验”：

BC 先验：鼓励策略保持接近人类示范（在策略空间上的 KL 正则或 L2 正则）；
自监督先验：鼓励视觉–语言–动作表征保持对结构 / 物理规律的良好刻画；
RL 则在这些先验下寻找“在任务目标下最优”的后验策略。

这样理解，多范式联合训练就不再是“几个阶段拼接”，而是一个统一的贝叶斯视角：先用自监督与 BC 捕获强先验，再用 RL 和人类偏好进行后验更新。未来更通用的具身基础模型，很可能会在一个超长时间尺度上不断循环这个过程 —— 永远一边观察世界、一边接受指令、一边在行动中调整自己。

本章小结与自测

三行小结

本章讨论从预训练到微调的完整训练范式。
重点是数据工程、采样策略和训练稳定性。
学完后应能制定端到端训练计划并做复盘。

检查题

用你自己的话总结本章最核心的一个公式/机制。
给出一个“如果要落地到项目里，你会怎么用”的具体例子。

常见误区

训练计划缺少阶段目标。
采样策略和损失权重固定不变。
只看平均指标，不看长尾任务。

公式到代码（最小示例）

tasks = {"pick": 1200, "open_drawer": 200, "pour": 80}
alpha = 0.5
weights = {k: v ** alpha for k, v in tasks.items()}
z = sum(weights.values())
probs = {k: round(v / z, 4) for k, v in weights.items()}
print(probs)

本章外部参考（集中）

arXiv
OpenReview
NeurIPS论文集
arXiv
科学直通车
GitHub
arXiv
Proceedings of Machine Learning Research
ResearchGate
CVF开放获取
tonyzhaozh.github.io
IBM
本章其余链接可在正文中按上下文继续查阅。

Keyboard shortcuts

Robotic Embodied Intelligence - From Zero to Hero