Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

12.2.1 少样本 / 零样本任务泛化

在前面的章节里,我们主要讨论了“在给定任务和数据下把模型训练好”。但真正投放到现实世界后,更棘手的问题是:新任务、新物体、新环境几乎每天都在出现,不可能为每一种情况都采集海量数据再重训一次模型。

少样本 / 零样本泛化,就是试图回答两个问题:

  • 只有很少甚至没有新数据时,如何让机器人“举一反三”?
  • 怎样把互联网上海量、杂乱的人类经验,转成机器人可以直接利用的能力?

12.2.1.1 元学习(Meta-Learning)

元学习 常被称为“学会如何学习”(learning to learn):不是只学某个具体任务的参数,而是学一个更新规则或初始化状态,让机器人在面对新任务时,只用极少数据和几个更新步骤就能适应。(ACM数字图书馆)

一个典型的公式可以这样写:

\[ \min_{\theta} \sum_{T \sim p(T)} \mathcal{L}_T\big(U(\theta, D_T^{\text{train}}), D_T^{\text{test}}\big) \]

  • \(\theta\):“元参数”,比如所有任务共享的初始网络参数;
  • \(U(\cdot)\):“内层更新算子”,比如在新任务上做几步梯度下降;
  • \(D_T^{\text{train}}\) / \(D_T^{\text{test}}\):任务 \(T\) 的少量训练 / 测试数据。

经典方法类别

  1. 优化式元学习:以 MAML 为代表,显式优化“经过几步梯度更新后的效果”。许多机器人 manipulation 工作将 MAML 和模仿学习结合,形成 meta-imitation learning:在大量不同的抓取/推拉任务上训练,让机器人只靠 1–3 条新示范就能学会一个新任务。(robot-learning.ml)
  2. 度量式元学习:如 Prototypical Networks,通过学习一个嵌入空间,使得“同一任务中的好动作/好状态”彼此接近,测试时只需在嵌入空间做最近邻检索即可。
  3. 模型式元学习:直接用 RNN/Transformer 作为“学习器”,把一段交互历史(状态、动作、回报)当作序列输入,网络隐状态本身就扮演“在线更新”的角色。

在具身机器人中的应用

  • 针对“新任务但物理性质相似”的场景,元学习格外有优势。例如针对不同地形上的“舀取沙土”任务,对每种地形只收集少量试验数据,用深高斯过程 + 元学习在不同地形间迁移,能快速在线调节策略,在未见过的目标地形上也能成功采样。(arXiv)
  • 在多任务 manipulation 基准(如 Meta-World)上,Transformer + 元模仿学习模型可以只用几条新示范,就适配到新的组合任务。(robot-learning.ml)

与 VLA 的结合

在 VLA 场景中,一个“任务”通常是“语言指令 + 场景分布”的组合(例如“把任意红色杯子放到任意一层架子上”)。元学习提供几种思路:

  • 冻结大部分视觉–语言 backbone,只对动作解码头 或小规模 Adapter 做快速梯度更新;
  • 把“少量新示范轨迹”作为额外 token(上下文)拼进 Transformer,让模型做“in-context meta-learning”,在推理时就完成适配,无需显式梯度更新。

【图 12-10 占位:示意图:上层是很多不同任务的数据块,下层是共享的 VLA 模型,通过“外层更新”学会一个好初始化,面对新任务只需一两步更新即可。】

从工程角度看,元学习适合那些任务切换频繁但每个任务可采集的数据都很有限 的机器人系统,例如物流中心里频繁变更的拣货规则、实验室里不断变化的新实验操作流程。


12.2.1.2 零样本迁移(Zero-Shot Transfer)

少样本学习还有几条示范;零样本 则更“硬核”:在新任务上没有机器人数据,甚至不做任何额外训练,就要直接表现出合理行为。

在具身机器人中,零样本能力主要依赖两类基础:

  1. 语义 / 表征层的零样本迁移
    • 典型例子是 R3M 这类视觉表征:先在 Ego4D 等大规模人类视频上,通过时间对比学习 + 视频–语言对齐预训练一个视觉编码器,再在下游机器人任务上冻结这个编码器,只训练控制头。结果表明,相比从头训练或用 ImageNet/CLIP 表征,R3M 能显著提高样本效率和任务成功率,并在只用 20 条示范的情况下完成真实场景中的多种 manipulation 任务。(arXiv)
    • 类似地,用大规模 MAE(Masked Autoencoder)在互联网图像 + 机器人图像上预训练视觉骨干,再把它作为冻结 encoder,也可以在多种真实 manipulation 任务上超过传统 CLIP 和监督预训练。
  2. 策略 / 行为层的零样本迁移
    • RT-1 将超过 70 万个、覆盖 700+ 种语言条件任务的机器人执行轨迹训练成一个 Transformer policy,在训练中从未见过的组合指令和新物体上也能保持较高成功率,体现出一定零样本任务泛化能力。(robotics-transformer1.github.io)
    • RT-2 更进一步,把 web 规模视觉–语言模型与 RT-1 机器人数据共训练成 VLA 模型,使机器人能把仅在互联网图片或文本中出现过的概念(如特定公司的 logo、危险物品类别)转化为现实中的操作策略,实现“web 知识 → 机器人动作”的零样本迁移。(Google DeepMind)
    • CLIP-RT 利用预训练 CLIP embedding,把语言描述对齐到一组“动作原语”上,通过对比模仿学习,让机器人能对训练集中从未出现过的物体 执行合理操作,在零样本设置下优于传统端到端视觉–动作策略。(ResearchGate)
    • SuSIE 则利用预训练的图像编辑 Diffusion 模型作为高层 planner,给定当前观测和语言指令,让模型生成若干“未来子目标图像”,再由低层 goal-conditioned policy 实现这些子目标。由于高层图像编辑模型来自大规模互联网图像预训练,SuSIE 能在大量未在机器人数据中出现过的物体和场景 上实现零样本 manipulation。(arXiv)

另外,还有工作直接把预训练 VLM 接入机器人 pipeline,例如 MOO(Manipulation of Open-World Objects)使用 CLIP 从指令和当前图像中识别目标物体,再交给下游 policy 执行,从而在大量“新类别物体”上实现零样本操作。(arXiv)

从这些例子可以看出一个核心思想:把机器人输入/输出映射到人类语义空间 。视觉–语言模型已经在互联网数据上学会了“什么是杯子、垃圾、可食用物品、危险物品”等概念;机器人只要在这个语义空间里操作,就能直接继承这些对世界的理解。

当然,零样本也有明显局限:

  • 基础模型的知识本身有限,可能带有互联网数据的偏置;
  • 基本不包含动力学和接触力学等“身体知识”,导致在复杂物理交互(如插拔、拧紧)上仍然需要机器人自身的数据。

12.2.1.3 提示学习(Prompt Learning)

在大模型时代,“改 prompt 比改网络更便宜”已经成为共识。对于机器人,提示(prompt)并不仅仅是自然语言句子,还可以是:

  • 一段示范轨迹(轨迹 prompt);
  • 一串“技能标识”或“原语 token”;
  • 甚至是专门为模型学出的“向量化提示”(软 prompt)。

这里可以从三个层面理解提示学习在具身智能中的角色。

(1)自然语言提示:用指令驱动策略

  • 像 SayCan 这样的框架,将大型语言模型(PaLM)和机器人 affordance 模型结合,语言模型负责在大量“技能描述”上做推理筛选,affordance 模型负责评估当前环境下执行某技能的成功概率,从而实现“Do as I can, not as I say”。(GitHub)
  • Instruct2Act 则更进一步,直接让 LLM 生成 Python 程序,调用感知 API(例如 SAM、CLIP)和运动原语 API,把多模态指令映射为可执行的 perception–planning–action 流程,在桌面操作任务上展示了较强的零样本能力。(arXiv)

在这些系统中,人类给出的只是一个高层提示(自然语言指令),其余细节由 LLM + 基础模型推理补全。

(2)技能 / 原语提示:Think Small, Act Big

近期工作提出“Primitive Prompt Learning(PPL)”来解决终身 manipulation 中的知识复用问题。其核心思路是:(CVF开放获取)

  • 把常用的动作模式(靠近、抓取、插入……)抽象成一组可重用的原语 embedding
  • 新任务学习时,不是从头学一段完整策略,而是学一串“primitive prompts”,即在适当时刻激活哪些原语、如何组合;
  • 这样既缓解了灾难性遗忘,又方便在后续任务中复用已有技能。

对于 VLA 模型而言,可以把这些原语 embedding 看成动作层面的“离散 token”,与语言 token、视觉 token 一起输入 Transformer,通过 prompt 形式控制当前任务的“技能组合方式”。

(3)“软 prompt”与策略 in-context 学习

除了显式语言或离散 token,还可以使用“软 prompt”——一组可学习的向量,拼在输入序列前面,作为对模型的隐式条件。这在以下场景尤其有用:

  • 不同机器人平台共享同一套 VLA 模型时,用 Embodiment prompt 区分当前机器人(类似 PaLM-E 中的硬件 embedding)。(arXiv)
  • 为不同用户或不同环境学习专属“偏好向量”,让机器人在不改动主网络的前提下呈现个性化行为。

一个更极端的形式是轨迹作为 prompt:在输入序列前先放几条“示范观察–动作对”,然后再把当前观测接上,模型通过自注意力做“类比”,在前向推理过程中完成“few-shot 模仿”。这实际上是一种纯靠提示实现的元学习(in-context meta-learning),已经在多任务 Transformer policy 中表现出不错的 few-shot 泛化能力。(robot-learning.ml)

【图 12-11 占位:三类 Prompt 示意图:上方为自然语言指令 prompt,中间为 skill primitive prompt(小方块组合成序列),下方为轨迹 prompt(若干观测–动作配对),统一输入一个 Transformer。】

从实践角度看,提示学习最大的价值在于:可以在不改模型参数的情况下切换任务或行为风格,非常适合部署后的在线使用与快速迭代。


12.2.2 在线适应与终身学习(Lifelong Learning)

少样本 / 零样本泛化更多是“在训练结束后面对新任务如何应对”;而在线适应和终身学习 则强调:训练这件事本身在机器人整个生命周期中从未真正结束

机器人每天都在遇到新用户、新环境、新硬件状态(磨损、偏移),如果我们能把这些经历转化为可持续累积的知识,系统就会越用越聪明。

12.2.2.1 在线学习(Online Learning)

在经典机器学习中,在线学习指数据按时间序列到达,每次更新只能看到当前小批量甚至单个样本,且通常不能无限存储全部历史数据。

对机器人而言,在线学习体现为:

  • 部署期间,机器人不断接收新感知数据和交互反馈;
  • 在不完全停机的前提下,对部分模型参数做小幅、频繁的更新
  • 希望既能快速适应新环境,又不破坏已有能力。

典型实现策略包括:

  1. 局部微调 + 冻结 backbone
    • 利用已经预训练好的视觉–语言 backbone(例如 MAE、R3M 或 VLM),在部署现场只对一小段动作头或 Adapter 层进行在线更新,这样既减轻计算开销,也减少对已有知识的干扰。(arXiv)
  2. 在线强化学习 / 自监督更新
    • 在安全约束下,允许机器人在环境中进行小规模探索,通过 RL 或自监督任务(例如未来预测、对比学习)持续微调控制模块或状态表征;
    • 例如在深高斯过程元学习 scooping 工作中,机器人在新地形上通过极少交互数据在线更新模型超参数,实现对未建模物理差异的快速适应。(arXiv)
  3. 增量式重放缓冲(replay buffer)
    • 在有限容量下维护一个“代表性经验集合”,新数据到来时与旧数据竞争存储位置,在线更新时既使用最新数据也适度重放旧经验,减缓短期偏移。

【图 12-12 占位:在线学习流程图:传感器数据流 → 评估模块 → 小批量参数更新 → 新策略上线,旁边有一个有限大小的 replay buffer 支持重放。】

与离线大规模训练相比,在线学习更强调稳定性与安全性:每次更新不能让策略“突然变坏”,否则真实机器人可能当场翻车。这也是在线学习在具身场景中推广较慢的主要原因之一。


12.2.2.2 终身学习挑战(Lifelong / Continual Learning)

在线学习通常只考虑短时间窗口内的适应,而终身学习 则关注整个任务序列和生命周期。其目标是:

在源源不断的新任务和新数据到来时,机器人能持续学习保留以往能力,而不是“学一个忘一个”。

在机器学习中,这通常被称为 Continual Learning(CL),已经形成较系统的定义和框架:数据分布和学习目标随时间变化,算法需要在保持旧任务性能的同时,习得新任务。(科学直通车)

在机器人 / 深度强化学习中的终身学习更加困难:RL 本身就难训练,再叠加任务序列与安全约束,问题变成“难上加难版 RL” 。已有工作分析了 RL 场景下的 lifelong learning 特性,指出忘记旧任务、探索不安全、训练不稳定等问题都被放大。(Proceedings of Machine Learning Research)

关键挑战包括:

  1. 灾难性遗忘(Catastrophic Forgetting)
    • 参数被新任务梯度强烈推动,旧任务相关表征被覆盖;
    • 尤其在机器人 RL 中,一个新任务就可能需要数十万步更新,如果没有约束,很容易把旧技能“洗掉”。(Nature)
  2. 容量与结构管理
    • 不可能无限扩展模型大小;何时为新任务分配新参数、何时复用旧参数,是一个动态架构设计问题;
    • 多机器人、多任务共享一个 VLA 模型时,还要考虑不同平台之间的结构差异。(arXiv)
  3. 任务边界与任务识别
    • 实际部署中“任务切换”往往是隐式的,例如用户换了一个说话方式,或环境布局发生变化,很难人为标出清晰的 task id。
  4. 评测与度量
    • 终身学习不能只看“最新任务的成功率”,还要评估:
      • backward transfer(新任务训练后旧任务性能是否提升/下降);
      • forgetting measure(对每个旧任务性能下降多少);
      • forward transfer(在看到新任务数据前,模型对它的初始表现如何)。(科学直通车)

在机器人场景中,已经出现了针对终身 manipulation 的专门框架。例如 LOTUS 通过在任务流中持续发现和维护动作技能库,再由高层 meta-controller 组合这些技能完成新任务,在长期多任务序列上显著优于传统方法。(arXiv)

还有工作探索如何在 RL 框架中“同时保留和组合知识”,提出针对机器人终身学习的深度 RL 算法,可以在任务流中长期稳定地保留已学策略。(Nature)

【图 12-13 占位:终身学习评测示意:横轴为任务序列,纵轴为不同任务的成功率,各条曲线显示随着时间对每个任务的遗忘/提升情况。】

对 VLA 而言,终身学习未来很可能表现为:一个统一基础模型 + 不断扩展的技能 / prompt / Adapter 仓库,既维持通用的视觉–语言–世界知识,又不断积累针对具体环境和用户习惯的操作经验。


12.2.2.3 连续自适应(Continuous Adaptation)

相比“按任务阶段分块”的终身学习,现实世界更接近一种连续、无缝的分布漂移:光照逐渐变暗、桌面换了一批新物体、相机被轻微挪动、关节磨损增加……这些变化都不一定构成“新任务”,却会慢慢击穿原有模型的假设。

连续自适应 关注的是在这种缓慢、持续漂移下,机器人如何:

  • 一边执行任务,一边悄悄更新自己的感知和控制;
  • 不需要显式“换任务模式”或人工干预。

一些代表性思路包括:

  1. 域自适应 / 表征迁移
    • 如 PeS(Perception Encoder Transfer)一类方法,不直接迁移整个策略,而是先对感知编码器做迁移,让新的视觉域映射到一个与旧策略兼容的表征空间,随后再小幅调整策略,在新环境中显著提升成功率。(arXiv)
    • 利用自监督目标(例如保持时序一致性、预测未来帧),在执行过程中对 encoder 做小步更新,使视觉表征对新光照、材质变化保持鲁棒。(arXiv)
  2. 基于原语 / prompt 的渐进扩展
    • Primitive Prompt Learning 在终身 manipulation 中引入“可重用原语 + prompt 组合”的机制,也自然适合连续自适应:新任务往往只需要引入少量新原语 embedding 或新的原语组合方式,而不是完全重写策略网络。(CVF开放获取)
    • 类似地,CL-LoRA 这类“持续 LoRA”技术在图像增量学习中通过低秩 Adapter 连续吸收新知识,也为机器人领域提供了参数高效、适合长时间在线微调的手段。(GitHub)
  3. 多时间尺度更新
    • 可以把整个系统拆成“快变量”和“慢变量”:
      • 快变量:如部分控制参数、正则项系数,允许在几秒到几分钟尺度上在线更新;
      • 慢变量:如 backbone、世界模型结构,只在长时间聚集足够证据或 offline 维护时更新。
    • 这种结构和前面讲的元学习(内外层更新)概念自然呼应,只不过这里强调的是部署期间的工程实现形式
  4. 个性化与用户习惯学习
    • 对服务机器人而言,“连续自适应”还包括学习用户偏好:比如某位用户总是希望机器人把杯子放在桌子左上角,系统可以为这个用户维护一个特定的“偏好 prompt”或小型 Adapter,在识别出用户身份后激活。(DSpace)

【图 12-14 占位:多时间尺度自适应示意:底层基础 VLA 模型参数缓慢演化,中间的 Adapter / LoRA / prompt 持续小步更新,顶层控制策略根据最近经验做快速调整。】

从更长远的角度看,连续自适应是让机器人从“静态模型”走向“不断更新的数字生命体”的必要步骤,而如何在这一过程中保持可控性和可验证性,将是未来具身智能的重要研究主题。


12.2.3 从互联网经验到物理世界的迁移

互联网是一个巨大的“人类经验缓存”:数以亿计的视频、图像、教程文章、问答对话里,记录了人类如何操作物体、完成任务、描述世界。具身智能想要“从零到英雄”,不可能只靠实验室里那几台机器人摸索,必然要想办法让机器人“借用”这些人类经验。

本小节关心的是三个问题:

  1. 互联网中的知识以什么形式存在,如何转成机器人可用的结构?
  2. 如何把 VLM / LLM 等基础模型与机器人控制模块融合
  3. 有哪些已经证明“互联网 → 机器人”迁移可行的典型案例?

12.2.3.1 知识转移(Knowledge Transfer)

互联网经验主要以三种形式存在:

  • 静态图像 + 文本:图像配 caption、alt 文本、文章插图等;
  • 视频:人类演示各种操作的 egocentric 或第三人称视频;
  • 纯文本:教程、说明书、问答等,包含大量程序性知识。

对应地,在机器人领域出现了三条主要的知识转移路径。

(1)视觉表征迁移:R3M、MAE 等

  • R3M 利用 Ego4D 等大规模人类视频,通过时间对比学习、视频–语言对齐和稀疏正则化,训练出一个通用视觉 encoder;在 12 个模拟 manipulation 任务和真实 Franka Panda 机械臂上,使用 R3M 表征显著提高了任务成功率和数据效率。(arXiv)
  • Real-World Robot Learning with Masked Visual Pre-training 使用 MAE 在互联网和机器人图片上预训练 ViT,再在多个真实场景任务中冻结视觉 encoder、只训练控制头,证明了大规模自监督视觉预训练对机器人学习的巨大加成

这些方法的共同点是:把视觉问题“解决”在互联网上,然后把机器人训练问题简化为“在一个已经很有语义和结构的表征上学控制”。

(2)奖励与 affordance 迁移:RoboCLIP、MOO 等

  • RoboCLIP 利用预训练 VLM 对“视频示范或文本描述”与当前观察之间的相似度来构造奖励函数,使得 RL agent 在没有人工手写 reward 的情况下就能学会对应任务;更重要的是,它可以利用“人类示范视频”作为出域示范,实现跨领域的奖励构造。(arXiv)
  • MOO(Manipulation of Open-World Objects)使用 CLIP 等 VLM 从自然语言命令和相机图像中抽取“目标物体标识”,把这些抽象信息输入 robot policy,从而实现对从未见过的新类别物体 的操作,一定程度上弥补了机器人数据覆盖不全的问题。(arXiv)

这类方法把互联网知识转化为了“奖励信号”和“物体语义标签”,在 RL 和模仿学习中扮演裁判或教师的角色。

(3)行为 / 轨迹迁移:学习从视频到控制

  • R3M 之后,许多工作直接用人类操作视频构建“手–物体交互的先验”,例如 VideoDex 和后续工作从互联网人手视频中学习 dexterous manipulation 先验,再迁移到机器人手。(Proceedings of Machine Learning Research)
  • 大量综述系统梳理了“Learning from Video (LfV)”在机器人中的应用,强调通过从互联网视频提取物体 affordance、动作先验和时序结构,可以显著降低机器人实际需要的交互数据。(OpenReview)

【图 12-15 占位:三条转移路径示意:左侧是互联网图像/视频/文本,中间分别流向“视觉 encoder”、“reward/affordance 模型”、“world model / trajectory priors”,右侧汇入机器人控制模块。】

总的来说,知识转移的哲学是:让机器人尽量少地“重复人类已经在互联网上做过一万遍的事情”,只在必要处进行具身补课


12.2.3.2 模型融合(Model Fusion)

有了互联网预训练的 VLM/LLM,还有机器人自身的数据和控制模块,接下来问题变成:这些模型到底怎么拼在一起?

实践中逐渐形成了几种主流的融合范式。

(1)规划–控制分离:LLM/VLM 作为高层 planner

  • SayCan 使用 PaLM 语言模型去评估“在当前语言指令下,一组候选技能序列是否合理”,同时用一个从机器人数据训练的 affordance 模型评估每个技能在当前场景的可行性,通过两者结合选择下一步技能。(GitHub)
  • SuSIE/相关工作使用 Diffusion 模型生成未来“子目标图像”,低层则是 goal-conditioned policy 或传统控制器。(arXiv)
  • Instruct2Act 让 LLM 直接生成 Python 程序,调用 SAM、CLIP 等视觉基础模型和预定义动作原语,形成一个“由 LLM glue 在一起的感知–规划–控制 pipeline”。(arXiv)

这种结构的特点是:互联网模型只负责“想”,机器人模型负责“做”,两者通过有限接口(技能列表、子目标、代码 API)耦合。

(2)端到端共训练:VLM → VLA

另一条路线是直接将 web 预训练的 VLM 整体嵌入 VLA 模型 中,通过在机器人数据上的联合微调,使其输出动作 token:

  • RT-2 以 PaLI-X 等大规模 VLM 为基础,在 web 图文 + RT-1 机器人数据上共同训练,使模型在保留 web 任务能力(如图文问答、识别)的同时,能够直接输出机器人 action token,实现“真正意义上的 VLA 基础模型”。(Google DeepMind)
  • 后续工作如 RT-X、DexVLA、π₀-FAST 等,在多机器人、多数据源上扩展这一思路,引入动作 token 压缩、跨具身编码等技术,让一个大模型尽可能服务更多平台。(arXiv)

这类模型的优点是统一、强大,缺点是难以部署和更新:任何微小改动(例如适配新机器人)都可能需要大规模重新训练或复杂的 Adapter 设计。

(3)模块化 / 分层融合:世界模型 + 代码 + 控制

  • 使用 VLM 作为“多模态感知模块”,LLM 作为“符号规划模块”,传统运动规划 / RL 作为“连续控制模块”,三者通过明确 API 拼接成分层结构;
  • 例如有工作将 PaLM-E 这类多模态模型作为统一语义中枢,同时为不同机器人平台接入不同“embodiment embedding”和动作 head,在 VLA 综述中被视为一种“跨具身统一大脑”的实现方式。(arXiv)

这一范式本质上是在深度学习基础模型之上重建一个“模块化机器人系统”,兼顾可解释性和灵活性,预计会在工业落地中占比较大。

【图 12-16 占位:三种融合范式对比图:左边是 planner–controller 分离,中间是端到端 VLA,大模型直接出动作,右边是多模块分层系统。】


12.2.3.3 案例:从互联网到真实机器人的完整链路

下面选几个具有代表性的系统,串联回本节的三个核心问题。

案例一:RT-2——web 知识直接变成机器人动作

  • 基础:PaLI-X 等 web 规模 VLM,拥有强大的视觉理解与语言推理能力。(Google DeepMind)
  • 机器人数据:使用 RT-1 收集的大规模语言条件操作轨迹。(robotics-transformer1.github.io)
  • 训练:将动作序列 token 化,与文字 token 一起喂入 Transformer,通过共训练让 VLM “顺带学会”输出动作;
  • 效果:在只在 web 数据中出现过、但从未在机器人数据中出现过的概念(如某些 logo、抽象类别“可回收物”)上,RT-2 仍能做出合理操作,体现“web → robot”的零样本迁移。

案例二:R3M + 下游 RL / IL——互联网视频提取通用视觉

  • 预训练阶段:在 Ego4D 等大规模人类视频上,用时间对比学习、视频–语言对齐等目标训练视觉 encoder;(arXiv)
  • 下游阶段:在模拟和真实 manipulation 任务上冻结 encoder,只训练控制头(RL 或 BC),得到显著更高的成功率和样本效率;
  • 意义:说明仅仅在感知层使用互联网视频预训练,就可以极大缓解真实机器人数据短缺问题,为后续世界模型和 VLA 打下基础。

案例三:SuSIE ——用图像编辑 Diffusion 做高层规划

  • 预训练:基于互联网图像训练 InstructPix2Pix 等图像编辑 Diffusion 模型;(arXiv)
  • 强化阶段:在少量人类/机器人视频上微调,使得模型可以在给定当前观测图像和指令时,生成“合理的未来子目标图像”;
  • 控制:用 goal-conditioned policy 实现这些子目标;
  • 结果:在长时序 manipulation 任务中实现很强的零样本泛化,说明用图像编辑模型来“想象未来画面”是一种有效的高层规划方式

案例四:Primitive Prompt Learning(PPL)——互联网技能与终身学习的桥梁

  • PPL 在终身 manipulation 中引入“原语 prompt”机制,将复杂任务分解为可重用原语,并通过 prompt 组合原语来适应工作流。(CVF开放获取)
  • 当这些原语一部分来自互联网数据预训练的基础模型,一部分来自机器人自身的操作经验时,PPL 实际上扮演了互联网知识与机器人终身技能库之间的“适配层”

【图 12-17 占位:多案例拼图:左上 RT-2(web & robot 双箭头),右上 R3M(视频 → encoder → 控制),左下 SuSIE(图像编辑生成未来子目标),右下 PPL(原语库 + prompt 组合)。】

通过这些案例可以看到,本小节前面讨论的三个层面——知识转移、模型融合、在线/终身适应——在真正的系统中是紧密交织在一起的:互联网经验提供了大规模、廉价的“世界先验”,终身学习则是在此基础上进行具身微调和个性化演化 。在接下来的章节中,我们还将从安全、伦理和社会影响的角度,重新审视这种“世界知识直接驱动物理行动”的新范式可能带来的风险与机遇。