12.2 更强的泛化与自适应能力 - Robotic Embodied Intelligence

12.2.1 少样本 / 零样本任务泛化

学习导航

本章主题：12.2.1 少样本 / 零样本任务泛化

前置知识：建议全书主线章节均已通读一遍。

建议用时：69-89 分钟

阅读顺序：先看概念框架，再看公式/代码，最后做自测。

在前面的章节里，我们主要讨论了“在给定任务和数据下把模型训练好”。但真正投放到现实世界后，更棘手的问题是：新任务、新物体、新环境几乎每天都在出现，不可能为每一种情况都采集海量数据再重训一次模型。

少样本 / 零样本泛化，就是试图回答两个问题：

只有很少甚至没有新数据时，如何让机器人“举一反三”？
怎样把互联网上海量、杂乱的人类经验，转成机器人可以直接利用的能力？

12.2.1.1 元学习（Meta-Learning）

元学习常被称为“学会如何学习”（learning to learn）：不是只学某个具体任务的参数，而是学一个更新规则或初始化状态，让机器人在面对新任务时，只用极少数据和几个更新步骤就能适应。(ACM数字图书馆)

一个典型的公式可以这样写：

\[ \min_{\theta} \sum_{T \sim p(T)} \mathcal{L}_T\big(U(\theta, D_T^{\text{train}}), D_T^{\text{test}}\big) \]

\(\theta\)：“元参数”，比如所有任务共享的初始网络参数；
\(U(\cdot)\)：“内层更新算子”，比如在新任务上做几步梯度下降；
\(D_T^{\text{train}}\) / \(D_T^{\text{test}}\)：任务 \(T\) 的少量训练 / 测试数据。

经典方法类别

1.优化式元学习：以 MAML 为代表，显式优化“经过几步梯度更新后的效果”。许多机器人 manipulation 工作将 MAML 和模仿学习结合，形成 meta-imitation learning：在大量不同的抓取/推拉任务上训练，让机器人只靠 1–3 条新示范就能学会一个新任务。(robot-learning.ml) 2.度量式元学习：如 Prototypical Networks，通过学习一个嵌入空间，使得“同一任务中的好动作/好状态”彼此接近，测试时只需在嵌入空间做最近邻检索即可。 3.模型式元学习：直接用 RNN/Transformer 作为“学习器”，把一段交互历史（状态、动作、回报）当作序列输入，网络隐状态本身就扮演“在线更新”的角色。

在具身机器人中的应用

针对“新任务但物理性质相似”的场景，元学习格外有优势。例如针对不同地形上的“舀取沙土”任务，对每种地形只收集少量试验数据，用深高斯过程 + 元学习在不同地形间迁移，能快速在线调节策略，在未见过的目标地形上也能成功采样。(arXiv)
在多任务 manipulation 基准（如 Meta-World）上，Transformer + 元模仿学习模型可以只用几条新示范，就适配到新的组合任务。(robot-learning.ml)

与 VLA 的结合

在 VLA 场景中，一个“任务”通常是“语言指令 + 场景分布”的组合（例如“把任意红色杯子放到任意一层架子上”）。元学习提供几种思路：

冻结大部分视觉–语言 backbone，只对动作解码头或小规模 Adapter 做快速梯度更新；
把“少量新示范轨迹”作为额外 token（上下文）拼进 Transformer，让模型做“in-context meta-learning”，在推理时就完成适配，无需显式梯度更新。

【图 12-10 占位：示意图：上层是很多不同任务的数据块，下层是共享的 VLA 模型，通过“外层更新”学会一个好初始化，面对新任务只需一两步更新即可。】

从工程角度看，元学习适合那些任务切换频繁但每个任务可采集的数据都很有限的机器人系统，例如物流中心里频繁变更的拣货规则、实验室里不断变化的新实验操作流程。

12.2.1.2 零样本迁移（Zero-Shot Transfer）

少样本学习还有几条示范；零样本则更“硬核”：在新任务上没有机器人数据，甚至不做任何额外训练，就要直接表现出合理行为。

在具身机器人中，零样本能力主要依赖两类基础：

1.语义 / 表征层的零样本迁移

典型例子是 R3M 这类视觉表征：先在 Ego4D 等大规模人类视频上，通过时间对比学习 + 视频–语言对齐预训练一个视觉编码器，再在下游机器人任务上冻结这个编码器，只训练控制头。结果表明，相比从头训练或用 ImageNet/CLIP 表征，R3M 能显著提高样本效率和任务成功率，并在只用 20 条示范的情况下完成真实场景中的多种 manipulation 任务。(arXiv)
类似地，用大规模 MAE（Masked Autoencoder）在互联网图像 + 机器人图像上预训练视觉骨干，再把它作为冻结 encoder，也可以在多种真实 manipulation 任务上超过传统 CLIP 和监督预训练。 2.策略 / 行为层的零样本迁移
RT-1 将超过 70 万个、覆盖 700+ 种语言条件任务的机器人执行轨迹训练成一个 Transformer policy，在训练中从未见过的组合指令和新物体上也能保持较高成功率，体现出一定零样本任务泛化能力。(robotics-transformer1.github.io)
RT-2 更进一步，把 web 规模视觉–语言模型与 RT-1 机器人数据共训练成 VLA 模型，使机器人能把仅在互联网图片或文本中出现过的概念（如特定公司的 logo、危险物品类别）转化为现实中的操作策略，实现“web 知识 → 机器人动作”的零样本迁移。(Google DeepMind)
CLIP-RT 利用预训练 CLIP embedding，把语言描述对齐到一组“动作原语”上，通过对比模仿学习，让机器人能对训练集中从未出现过的物体执行合理操作，在零样本设置下优于传统端到端视觉–动作策略。(ResearchGate)
SuSIE 则利用预训练的图像编辑 Diffusion 模型作为高层 planner，给定当前观测和语言指令，让模型生成若干“未来子目标图像”，再由低层 goal-conditioned policy 实现这些子目标。由于高层图像编辑模型来自大规模互联网图像预训练，SuSIE 能在大量未在机器人数据中出现过的物体和场景上实现零样本 manipulation。(arXiv)

另外，还有工作直接把预训练 VLM 接入机器人 pipeline，例如 MOO（Manipulation of Open-World Objects）使用 CLIP 从指令和当前图像中识别目标物体，再交给下游 policy 执行，从而在大量“新类别物体”上实现零样本操作。(arXiv)

从这些例子可以看出一个核心思想：把机器人输入/输出映射到人类语义空间。视觉–语言模型已经在互联网数据上学会了“什么是杯子、垃圾、可食用物品、危险物品”等概念；机器人只要在这个语义空间里操作，就能直接继承这些对世界的理解。

当然，零样本也有明显局限：

基础模型的知识本身有限，可能带有互联网数据的偏置；
基本不包含动力学和接触力学等“身体知识”，导致在复杂物理交互（如插拔、拧紧）上仍然需要机器人自身的数据。

12.2.1.3 提示学习（Prompt Learning）

在大模型时代，“改 prompt 比改网络更便宜”已经成为共识。对于机器人，提示（prompt）并不仅仅是自然语言句子，还可以是：

一段示范轨迹（轨迹 prompt）；
一串“技能标识”或“原语 token”；
甚至是专门为模型学出的“向量化提示”（软 prompt）。

这里可以从三个层面理解提示学习在具身智能中的角色。

（1）自然语言提示：用指令驱动策略

像 SayCan 这样的框架，将大型语言模型（PaLM）和机器人 affordance 模型结合，语言模型负责在大量“技能描述”上做推理筛选，affordance 模型负责评估当前环境下执行某技能的成功概率，从而实现“Do as I can, not as I say”。(GitHub)
Instruct2Act 则更进一步，直接让 LLM 生成 Python 程序，调用感知 API（例如 SAM、CLIP）和运动原语 API，把多模态指令映射为可执行的 perception–planning–action 流程，在桌面操作任务上展示了较强的零样本能力。(arXiv)

在这些系统中，人类给出的只是一个高层提示（自然语言指令），其余细节由 LLM + 基础模型推理补全。

（2）技能 / 原语提示：Think Small, Act Big

近期工作提出“Primitive Prompt Learning（PPL）”来解决终身 manipulation 中的知识复用问题。其核心思路是：(CVF开放获取)

把常用的动作模式（靠近、抓取、插入……）抽象成一组可重用的原语 embedding；
新任务学习时，不是从头学一段完整策略，而是学一串“primitive prompts”，即在适当时刻激活哪些原语、如何组合；
这样既缓解了灾难性遗忘，又方便在后续任务中复用已有技能。

对于 VLA 模型而言，可以把这些原语 embedding 看成动作层面的“离散 token”，与语言 token、视觉 token 一起输入 Transformer，通过 prompt 形式控制当前任务的“技能组合方式”。

（3）“软 prompt”与策略 in-context 学习

除了显式语言或离散 token，还可以使用“软 prompt”——一组可学习的向量，拼在输入序列前面，作为对模型的隐式条件。这在以下场景尤其有用：

不同机器人平台共享同一套 VLA 模型时，用 Embodiment prompt 区分当前机器人（类似 PaLM-E 中的硬件 embedding）。(arXiv)
为不同用户或不同环境学习专属“偏好向量”，让机器人在不改动主网络的前提下呈现个性化行为。

一个更极端的形式是轨迹作为 prompt：在输入序列前先放几条“示范观察–动作对”，然后再把当前观测接上，模型通过自注意力做“类比”，在前向推理过程中完成“few-shot 模仿”。这实际上是一种纯靠提示实现的元学习（in-context meta-learning），已经在多任务 Transformer policy 中表现出不错的 few-shot 泛化能力。(robot-learning.ml)

【图 12-11 占位：三类 Prompt 示意图：上方为自然语言指令 prompt，中间为 skill primitive prompt（小方块组合成序列），下方为轨迹 prompt（若干观测–动作配对），统一输入一个 Transformer。】

从实践角度看，提示学习最大的价值在于：可以在不改模型参数的情况下切换任务或行为风格，非常适合部署后的在线使用与快速迭代。

12.2.2 在线适应与终身学习（Lifelong Learning）

少样本 / 零样本泛化更多是“在训练结束后面对新任务如何应对”；而在线适应和终身学习则强调：训练这件事本身在机器人整个生命周期中从未真正结束。

机器人每天都在遇到新用户、新环境、新硬件状态（磨损、偏移），如果我们能把这些经历转化为可持续累积的知识，系统就会越用越聪明。

12.2.2.1 在线学习（Online Learning）

在经典机器学习中，在线学习指数据按时间序列到达，每次更新只能看到当前小批量甚至单个样本，且通常不能无限存储全部历史数据。

对机器人而言，在线学习体现为：

部署期间，机器人不断接收新感知数据和交互反馈；
在不完全停机的前提下，对部分模型参数做小幅、频繁的更新；
希望既能快速适应新环境，又不破坏已有能力。

典型实现策略包括：

1.局部微调 + 冻结 backbone

利用已经预训练好的视觉–语言 backbone（例如 MAE、R3M 或 VLM），在部署现场只对一小段动作头或 Adapter 层进行在线更新，这样既减轻计算开销，也减少对已有知识的干扰。(arXiv) 2.在线强化学习 / 自监督更新
在安全约束下，允许机器人在环境中进行小规模探索，通过 RL 或自监督任务（例如未来预测、对比学习）持续微调控制模块或状态表征；
例如在深高斯过程元学习 scooping 工作中，机器人在新地形上通过极少交互数据在线更新模型超参数，实现对未建模物理差异的快速适应。(arXiv) 3.增量式重放缓冲（replay buffer）
在有限容量下维护一个“代表性经验集合”，新数据到来时与旧数据竞争存储位置，在线更新时既使用最新数据也适度重放旧经验，减缓短期偏移。

【图 12-12 占位：在线学习流程图：传感器数据流 → 评估模块 → 小批量参数更新 → 新策略上线，旁边有一个有限大小的 replay buffer 支持重放。】

与离线大规模训练相比，在线学习更强调稳定性与安全性：每次更新不能让策略“突然变坏”，否则真实机器人可能当场翻车。这也是在线学习在具身场景中推广较慢的主要原因之一。

12.2.2.2 终身学习挑战（Lifelong / Continual Learning）

在线学习通常只考虑短时间窗口内的适应，而终身学习则关注整个任务序列和生命周期。其目标是：

在源源不断的新任务和新数据到来时，机器人能持续学习并保留以往能力，而不是“学一个忘一个”。

在机器学习中，这通常被称为Continual Learning（CL），已经形成较系统的定义和框架：数据分布和学习目标随时间变化，算法需要在保持旧任务性能的同时，习得新任务。(科学直通车)

在机器人 / 深度强化学习中的终身学习更加困难：RL 本身就难训练，再叠加任务序列与安全约束，问题变成“难上加难版 RL”。已有工作分析了 RL 场景下的 lifelong learning 特性，指出忘记旧任务、探索不安全、训练不稳定等问题都被放大。(Proceedings of Machine Learning Research)

关键挑战包括：

1.灾难性遗忘（Catastrophic Forgetting）

参数被新任务梯度强烈推动，旧任务相关表征被覆盖；
尤其在机器人 RL 中，一个新任务就可能需要数十万步更新，如果没有约束，很容易把旧技能“洗掉”。(Nature) 2.容量与结构管理
不可能无限扩展模型大小；何时为新任务分配新参数、何时复用旧参数，是一个动态架构设计问题；
多机器人、多任务共享一个 VLA 模型时，还要考虑不同平台之间的结构差异。(arXiv) 3.任务边界与任务识别
实际部署中“任务切换”往往是隐式的，例如用户换了一个说话方式，或环境布局发生变化，很难人为标出清晰的 task id。 4.评测与度量
终身学习不能只看“最新任务的成功率”，还要评估：
- backward transfer（新任务训练后旧任务性能是否提升/下降）；
- forgetting measure（对每个旧任务性能下降多少）；
- forward transfer（在看到新任务数据前，模型对它的初始表现如何）。(科学直通车)

在机器人场景中，已经出现了针对终身 manipulation 的专门框架。例如 LOTUS 通过在任务流中持续发现和维护动作技能库，再由高层 meta-controller 组合这些技能完成新任务，在长期多任务序列上显著优于传统方法。(arXiv)

还有工作探索如何在 RL 框架中“同时保留和组合知识”，提出针对机器人终身学习的深度 RL 算法，可以在任务流中长期稳定地保留已学策略。(Nature)

【图 12-13 占位：终身学习评测示意：横轴为任务序列，纵轴为不同任务的成功率，各条曲线显示随着时间对每个任务的遗忘/提升情况。】

对 VLA 而言，终身学习未来很可能表现为：一个统一基础模型 + 不断扩展的技能 / prompt / Adapter 仓库，既维持通用的视觉–语言–世界知识，又不断积累针对具体环境和用户习惯的操作经验。

12.2.2.3 连续自适应（Continuous Adaptation）

相比“按任务阶段分块”的终身学习，现实世界更接近一种连续、无缝的分布漂移：光照逐渐变暗、桌面换了一批新物体、相机被轻微挪动、关节磨损增加……这些变化都不一定构成“新任务”，却会慢慢击穿原有模型的假设。

连续自适应关注的是在这种缓慢、持续漂移下，机器人如何：

一边执行任务，一边悄悄更新自己的感知和控制；
不需要显式“换任务模式”或人工干预。

一些代表性思路包括：

1.域自适应 / 表征迁移

如 PeS（Perception Encoder Transfer）一类方法，不直接迁移整个策略，而是先对感知编码器做迁移，让新的视觉域映射到一个与旧策略兼容的表征空间，随后再小幅调整策略，在新环境中显著提升成功率。(arXiv)
利用自监督目标（例如保持时序一致性、预测未来帧），在执行过程中对 encoder 做小步更新，使视觉表征对新光照、材质变化保持鲁棒。(arXiv) 2.基于原语 / prompt 的渐进扩展
Primitive Prompt Learning 在终身 manipulation 中引入“可重用原语 + prompt 组合”的机制，也自然适合连续自适应：新任务往往只需要引入少量新原语 embedding 或新的原语组合方式，而不是完全重写策略网络。(CVF开放获取)
类似地，CL-LoRA 这类“持续 LoRA”技术在图像增量学习中通过低秩 Adapter 连续吸收新知识，也为机器人领域提供了参数高效、适合长时间在线微调的手段。(GitHub) 3.多时间尺度更新
可以把整个系统拆成“快变量”和“慢变量”：
- 快变量：如部分控制参数、正则项系数，允许在几秒到几分钟尺度上在线更新；
- 慢变量：如 backbone、世界模型结构，只在长时间聚集足够证据或 offline 维护时更新。
这种结构和前面讲的元学习（内外层更新）概念自然呼应，只不过这里强调的是部署期间的工程实现形式。 4.个性化与用户习惯学习
对服务机器人而言，“连续自适应”还包括学习用户偏好：比如某位用户总是希望机器人把杯子放在桌子左上角，系统可以为这个用户维护一个特定的“偏好 prompt”或小型 Adapter，在识别出用户身份后激活。(DSpace)

【图 12-14 占位：多时间尺度自适应示意：底层基础 VLA 模型参数缓慢演化，中间的 Adapter / LoRA / prompt 持续小步更新，顶层控制策略根据最近经验做快速调整。】

从更长远的角度看，连续自适应是让机器人从“静态模型”走向“不断更新的数字生命体”的必要步骤，而如何在这一过程中保持可控性和可验证性，将是未来具身智能的重要研究主题。

12.2.3 从互联网经验到物理世界的迁移

互联网是一个巨大的“人类经验缓存”：数以亿计的视频、图像、教程文章、问答对话里，记录了人类如何操作物体、完成任务、描述世界。具身智能想要“从零到英雄”，不可能只靠实验室里那几台机器人摸索，必然要想办法让机器人“借用”这些人类经验。

本小节关心的是三个问题：

互联网中的知识以什么形式存在，如何转成机器人可用的结构？
如何把 VLM / LLM 等基础模型与机器人控制模块融合？
有哪些已经证明“互联网 → 机器人”迁移可行的典型案例？

12.2.3.1 知识转移（Knowledge Transfer）

互联网经验主要以三种形式存在：

+静态图像 + 文本：图像配 caption、alt 文本、文章插图等； +视频：人类演示各种操作的 egocentric 或第三人称视频； +纯文本：教程、说明书、问答等，包含大量程序性知识。

对应地，在机器人领域出现了三条主要的知识转移路径。

（1）视觉表征迁移：R3M、MAE 等

R3M 利用 Ego4D 等大规模人类视频，通过时间对比学习、视频–语言对齐和稀疏正则化，训练出一个通用视觉 encoder；在 12 个模拟 manipulation 任务和真实 Franka Panda 机械臂上，使用 R3M 表征显著提高了任务成功率和数据效率。(arXiv)
Real-World Robot Learning with Masked Visual Pre-training 使用 MAE 在互联网和机器人图片上预训练 ViT，再在多个真实场景任务中冻结视觉 encoder、只训练控制头，证明了大规模自监督视觉预训练对机器人学习的巨大加成。

这些方法的共同点是：把视觉问题“解决”在互联网上，然后把机器人训练问题简化为“在一个已经很有语义和结构的表征上学控制”。

（2）奖励与 affordance 迁移：RoboCLIP、MOO 等

RoboCLIP 利用预训练 VLM 对“视频示范或文本描述”与当前观察之间的相似度来构造奖励函数，使得 RL agent 在没有人工手写 reward 的情况下就能学会对应任务；更重要的是，它可以利用“人类示范视频”作为出域示范，实现跨领域的奖励构造。(arXiv)
MOO（Manipulation of Open-World Objects）使用 CLIP 等 VLM 从自然语言命令和相机图像中抽取“目标物体标识”，把这些抽象信息输入 robot policy，从而实现对从未见过的新类别物体的操作，一定程度上弥补了机器人数据覆盖不全的问题。(arXiv)

这类方法把互联网知识转化为了“奖励信号”和“物体语义标签”，在 RL 和模仿学习中扮演裁判或教师的角色。

（3）行为 / 轨迹迁移：学习从视频到控制

R3M 之后，许多工作直接用人类操作视频构建“手–物体交互的先验”，例如 VideoDex 和后续工作从互联网人手视频中学习 dexterous manipulation 先验，再迁移到机器人手。(Proceedings of Machine Learning Research)
大量综述系统梳理了“Learning from Video (LfV)”在机器人中的应用，强调通过从互联网视频提取物体 affordance、动作先验和时序结构，可以显著降低机器人实际需要的交互数据。(OpenReview)

【图 12-15 占位：三条转移路径示意：左侧是互联网图像/视频/文本，中间分别流向“视觉 encoder”、“reward/affordance 模型”、“world model / trajectory priors”，右侧汇入机器人控制模块。】

总的来说，知识转移的哲学是：让机器人尽量少地“重复人类已经在互联网上做过一万遍的事情”，只在必要处进行具身补课。

12.2.3.2 模型融合（Model Fusion）

有了互联网预训练的 VLM/LLM，还有机器人自身的数据和控制模块，接下来问题变成：这些模型到底怎么拼在一起？

实践中逐渐形成了几种主流的融合范式。

（1）规划–控制分离：LLM/VLM 作为高层 planner

SayCan 使用 PaLM 语言模型去评估“在当前语言指令下，一组候选技能序列是否合理”，同时用一个从机器人数据训练的 affordance 模型评估每个技能在当前场景的可行性，通过两者结合选择下一步技能。(GitHub)
SuSIE/相关工作使用 Diffusion 模型生成未来“子目标图像”，低层则是 goal-conditioned policy 或传统控制器。(arXiv)
Instruct2Act 让 LLM 直接生成 Python 程序，调用 SAM、CLIP 等视觉基础模型和预定义动作原语，形成一个“由 LLM glue 在一起的感知–规划–控制 pipeline”。(arXiv)

这种结构的特点是：互联网模型只负责“想”，机器人模型负责“做”，两者通过有限接口（技能列表、子目标、代码 API）耦合。

（2）端到端共训练：VLM → VLA

另一条路线是直接将 web 预训练的 VLM整体嵌入 VLA 模型中，通过在机器人数据上的联合微调，使其输出动作 token：

RT-2 以 PaLI-X 等大规模 VLM 为基础，在 web 图文 + RT-1 机器人数据上共同训练，使模型在保留 web 任务能力（如图文问答、识别）的同时，能够直接输出机器人 action token，实现“真正意义上的 VLA 基础模型”。(Google DeepMind)
后续工作如 RT-X、DexVLA、π₀-FAST 等，在多机器人、多数据源上扩展这一思路，引入动作 token 压缩、跨具身编码等技术，让一个大模型尽可能服务更多平台。(arXiv)

这类模型的优点是统一、强大，缺点是难以部署和更新：任何微小改动（例如适配新机器人）都可能需要大规模重新训练或复杂的 Adapter 设计。

（3）模块化 / 分层融合：世界模型 + 代码 + 控制

使用 VLM 作为“多模态感知模块”，LLM 作为“符号规划模块”，传统运动规划 / RL 作为“连续控制模块”，三者通过明确 API 拼接成分层结构；
例如有工作将 PaLM-E 这类多模态模型作为统一语义中枢，同时为不同机器人平台接入不同“embodiment embedding”和动作 head，在 VLA 综述中被视为一种“跨具身统一大脑”的实现方式。(arXiv)

这一范式本质上是在深度学习基础模型之上重建一个“模块化机器人系统”，兼顾可解释性和灵活性，预计会在工业落地中占比较大。

【图 12-16 占位：三种融合范式对比图：左边是 planner–controller 分离，中间是端到端 VLA，大模型直接出动作，右边是多模块分层系统。】

12.2.3.3 案例：从互联网到真实机器人的完整链路

下面选几个具有代表性的系统，串联回本节的三个核心问题。

案例一：RT-2——web 知识直接变成机器人动作

基础：PaLI-X 等 web 规模 VLM，拥有强大的视觉理解与语言推理能力。(Google DeepMind)
机器人数据：使用 RT-1 收集的大规模语言条件操作轨迹。(robotics-transformer1.github.io)
训练：将动作序列 token 化，与文字 token 一起喂入 Transformer，通过共训练让 VLM “顺带学会”输出动作；
效果：在只在 web 数据中出现过、但从未在机器人数据中出现过的概念（如某些 logo、抽象类别“可回收物”）上，RT-2 仍能做出合理操作，体现“web → robot”的零样本迁移。

案例二：R3M + 下游 RL / IL——互联网视频提取通用视觉

预训练阶段：在 Ego4D 等大规模人类视频上，用时间对比学习、视频–语言对齐等目标训练视觉 encoder；(arXiv)
下游阶段：在模拟和真实 manipulation 任务上冻结 encoder，只训练控制头（RL 或 BC），得到显著更高的成功率和样本效率；
意义：说明仅仅在感知层使用互联网视频预训练，就可以极大缓解真实机器人数据短缺问题，为后续世界模型和 VLA 打下基础。

案例三：SuSIE ——用图像编辑 Diffusion 做高层规划

预训练：基于互联网图像训练 InstructPix2Pix 等图像编辑 Diffusion 模型；(arXiv)
强化阶段：在少量人类/机器人视频上微调，使得模型可以在给定当前观测图像和指令时，生成“合理的未来子目标图像”；
控制：用 goal-conditioned policy 实现这些子目标；
结果：在长时序 manipulation 任务中实现很强的零样本泛化，说明用图像编辑模型来“想象未来画面”是一种有效的高层规划方式。

案例四：Primitive Prompt Learning（PPL）——互联网技能与终身学习的桥梁

PPL 在终身 manipulation 中引入“原语 prompt”机制，将复杂任务分解为可重用原语，并通过 prompt 组合原语来适应工作流。(CVF开放获取)
当这些原语一部分来自互联网数据预训练的基础模型，一部分来自机器人自身的操作经验时，PPL 实际上扮演了互联网知识与机器人终身技能库之间的“适配层”。

【图 12-17 占位：多案例拼图：左上 RT-2（web & robot 双箭头），右上 R3M（视频 → encoder → 控制），左下 SuSIE（图像编辑生成未来子目标），右下 PPL（原语库 + prompt 组合）。】

通过这些案例可以看到，本小节前面讨论的三个层面——知识转移、模型融合、在线/终身适应——在真正的系统中是紧密交织在一起的：互联网经验提供了大规模、廉价的“世界先验”，终身学习则是在此基础上进行具身微调和个性化演化。在接下来的章节中，我们还将从安全、伦理和社会影响的角度，重新审视这种“世界知识直接驱动物理行动”的新范式可能带来的风险与机遇。

本章小结与自测

三行小结

本章扩展到前沿趋势与长期职业发展。
重点是建立可持续迭代的研究与工程路线。
学完后应能形成个人中长期方向规划。

检查题

用你自己的话总结本章最核心的一个公式/机制。
给出一个“如果要落地到项目里，你会怎么用”的具体例子。

常见误区

只追热点，不做能力积累。
方向切换过频繁。
缺乏长期项目沉淀。

公式到代码（最小示例）

papers = [
    {"topic": "generalization", "status": "reading"},
    {"topic": "safety", "status": "todo"},
]
next_topics = [p["topic"] for p in papers if p["status"] != "done"]
print(next_topics)

Robotic Embodied Intelligence - From Zero to Hero