9.1 预训练阶段 - Robotic Embodied Intelligence

9.1 预训练阶段概述（承上启下小结）

在上一章我们主要从结构上讨论了 VLA 模型“长什么样”。从本节开始，我们转向一个更工程化的问题：如何让这样一个模型“有东西可用”——也就是预训练阶段。

由于机器人真实交互数据昂贵、危险且难以规模化，当前主流做法是先依托互联网海量图文数据，把模型训练成一个强大的视觉–语言基础模型，再在机器人数据上做模仿学习和 RL 微调。(arXiv)

本小节聚焦四个问题：

用什么样的互联网图文语料来做预训练？
视觉 backbone 和语言 backbone 应该如何初始化？
自监督 / 半监督任务如何提升预训练效果？
如何在多任务预训练中合理设计和加权损失？

9.1.1 利用互联网图文数据进行视觉–语言预训练

9.1.1.1 图文语料

1）互联网图文数据的来源形式

互联网提供了大规模的“天然多模态数据”：

图片 + alt 文本（HTML 中的 alt 属性）
图片 + 标题 / 正文片段（新闻、博客、商品页面）
图片 + 用户评论（社交媒体）
图片 + 自动生成的弱描述（如搜索引擎爬虫产生的元数据）

早期数据集如 Conceptual Captions 、YFCC100M 等，就是从网页中抽取“图片 + 描述文字”对，经过一定规则过滤构建而成。ALIGN 工作沿用了类似流程，但减少了清洗程度，用极大规模弥补噪声问题。(arXiv)

近几年，LAION 系列数据集 将这一思路推向了“互联网级”规模：

LAION-400M：约 4 亿图文对，通过 CLIP 过滤保证基本语义相关性。(arXiv)
LAION-5B：扩展到约 58 亿多语种图文对，是目前公开可用的最大多模态数据集之一。(laion.ai)

这些数据集的共同特点：

规模极大：使模型可以在非常多样的场景中看到各种物体、动作、风格。
标注极弱且含噪：文本并不是精心写的“图像描述”，而往往只是上下文碎片。
覆盖面广：从生活照片到截图、表格、梗图、漫画，应有尽有。

对机器人而言，这类数据为“理解世界长什么样”提供了极其丰富的先验，为之后的具身学习打下语义基底。

2）数据清洗与安全过滤

大规模网络语料必然包含：

不相关的图文对（图和文完全不匹配）
噪声文字（乱码、广告、SEO 垃圾）
不适宜内容（成人、暴力、隐私等）

典型清洗步骤包括：

文本层面：去掉过短或过长的文本，过滤非自然语言、广告模板等。
图像层面：约束分辨率范围，去掉纯色图、损坏图。
语义相关性过滤：用一个已训练好的 CLIP 模型，对图文对打分，只保留相似度超过阈值的样本（LAION 系列采用此类方法）。(arXiv)
安全过滤：利用专门模型过滤 NSFW、暴力或隐私内容。

【图 9-1 占位：互联网图文数据预处理流程示意图。从“原始网页抓取”到“图像/文本预筛选”“CLIP 相似度过滤”“安全过滤”，最后得到干净的图文对。】

在面向机器人应用时，还可以增加额外的“领域过滤”，例如优先保留包含室内场景、桌面物体、工具、人体日常动作等图像，以提高对后续操作任务的相关性。

9.1.1.2 预训练任务

在具备大规模图文语料后，关键问题是：用什么任务来驱动模型学习有用的视觉–语言特征？

当前主流预训练目标大致分为三类：对比式、匹配式和生成式。

1）对比式预训练：CLIP / ALIGN / LiT

典型代表是 OpenAI 的 CLIP（Contrastive Language–Image Pre-training） 和 Google 的 ** ALIGN**、** LiT** 等。(arXiv)

核心思想是：

使用一个图像编码器 \(f_\text{img}\) 和一个文本编码器 \(f_\text{text}\)。
对于一个 batch 中的 \(\displaystyle N\) 个图文对 \(\displaystyle (I_i, T_i)\)，分别编码得到向量 \(\mathbf{v}_i = f_\text{img}(I_i)\)、\(\mathbf{u}_i = f_\text{text}(T_i)\)。
将匹配的 \(\displaystyle (I_i, T_i)\) 作为正样本，不匹配的组合作为** 负样本**。
使用 InfoNCE 形式的对比损失：

\[ \mathcal{L}_\text{img2text} = - \frac{1}{N} \sum_i \log \frac{\exp(\text{sim}(\mathbf{v}_i,\mathbf{u}_i)/\tau)} {\sum_j \exp(\text{sim}(\mathbf{v}_i,\mathbf{u}_j)/\tau)} \]

文本到图像方向类似，\(\text{sim}\) 通常为向量点积，\(\tau\) 为温度系数。

直观理解：模型被迫将语义上相关的图像和文本“拉近”到同一个向量空间，而把不相关的推远。训练完成后，我们可以：

用一句文本在图像库中检索匹配图片（文本→图像）
用一张图像在文本库中检索匹配描述（图像→文本）
甚至做零样本分类：将类别名称转为文本，编码后与图像特征做相似度比较。(arXiv)

ALIGN 则证明，即便图文配对噪声较大，只要数据规模足够大，对比学习仍然能够学到非常强的视觉表示。(arXiv)

LiT（Locked-image Text Tuning）进一步提出：锁死一个强大的预训练图像模型，只训练文本侧，用对比目标将文本 embedding 对齐到图像 embedding 空间中，从而极高效地获得强大的图文模型。(arXiv) 这一思路在 9.1.2 节会再次出现。

【图 9-2 占位：CLIP/ALIGN 双塔结构示意图。左侧为图像编码器，右侧为文本编码器，中间用对比损失对齐。】

2）匹配式预训练：图文匹配（ITM）

除了软对比损失，还可以显式训练一个二分类任务：给定一对 \(\displaystyle (I, T)\)，预测它们是否匹配（Image–Text Matching, ITM）。许多单流 VLM（如 ViLBERT、UNITER 等）都使用类似目标。

优点：

学习更细粒度的对齐（部分错误描述也会被判为“不匹配”）。
匹配得分可以直接用作检索排序或后续模块的置信度。

3）生成式预训练：BLIP 等统一理解–生成模型

对机器人尤其重要的一类目标，是从图像生成自然语言描述，以及反过来** 从文本生成与图像一致的语言/特征**。

BLIP（Bootstrapping Language-Image Pre-training）提出了一个统一的 VLP 框架，同时支持理解和生成任务：它使用多模态编码–解码架构，联合优化图文对比、图文匹配和语言建模等多个目标，并通过“生成新 caption + 过滤噪声 caption”的方式提升 Web 图文数据质量。(arXiv)

对于机器人而言，这类生成能力可以用于：

让模型给自己看到的场景配上语言描述，帮助理解操作环境；
利用语言模型对机器人执行过程进行解释（第 4.4.3 节会展开）。

9.1.1.3 通用语义特征

对比式 / 匹配式 / 生成式预训练的共同目标，是获得一个 “通用视觉–语言语义空间”：

空间中的每个向量既有“视觉含义”，又对应“语言含义”；
相似向量对应相近的语义概念（如“杯子”“coffee mug”“水杯”会聚在一起）。

CLIP 类模型已经展示出强大的零样本迁移能力：在未见过标注的分类任务上，仅通过语言描述类别名称，就能接近甚至匹敌监督训练的 ResNet-50。(arXiv)

ALIGN、LiT 等工作证明，只要视觉 backbone 足够强、图文对齐做得好，这一语义空间即可广泛迁移到下游任务 。(arXiv)

对具身智能而言，这一通用语义空间有几种直接用途：

作为视觉 encoder 初始化：将机器人摄像头图像送入预训练的图像编码器，得到语义丰富的特征，再供下游决策网络使用。
作为语言条件接口：用户的自然语言指令编码后与视觉特征处于同一空间，方便 VLA 模型进行“以文找物”的对齐（第 8.4 节）。
作为跨任务共享表示：同一语义空间既可以支持分类/检测，也可以支持操作策略学习，避免为每类任务单独训练视觉模型。

【图 9-3 占位：通用图文语义空间示意图。不同类别图像与对应文本在高维空间中形成簇，机器人操作任务在该空间中选取目标对象。】

9.1.2 视觉 backbone 与语言 backbone 的初始化策略

真实机器人项目通常不会从随机初始化训练一个 VLA 模型，而是高度依赖预训练好的视觉 / 语言 backbone。合理的初始化策略可以显著降低数据需求、提高收敛速度。

9.1.2.1 视觉模型初始化

可以大致分为三种来源：

1）纯视觉预训练模型

监督预训练：如在 ImageNet 上监督训练的 ResNet、ViT 等。
自监督预训练：如对比学习（SimCLR、MoCo、DINO）、掩码图像建模（MAE、BEiT 等）。MAE 通过随机遮挡高比例图像 Patch，并让模型重建被遮挡区域，学习到泛化性很强的视觉特征。(arXiv)

优点：

表征偏向纯几何/纹理/语义信息，对语言分布不过度依赖；
适合作为“中性”的视觉基石，再与语言对齐（如 LiT 的做法）。

2）视觉–语言联合预训练的视觉 encoder

CLIP、ALIGN、BLIP 等模型内置的视觉编码器，已经在图文任务上做过对齐训练，通常更擅长“对着语言找对应区域”。

例如：

使用 CLIP-ViT 作为视觉 backbone，可以直接获得与文本空间对齐的特征，方便后续指令条件控制。(arXiv)
InternVL 等近期大模型则从头联合训练大规模视觉 encoder 和 LLM，使视觉 backbone 更适配下游多模态任务。(CVF开放获取)

3）如何为机器人场景做选择？

实践中常见的几种组合：

桌面操作 / 室内服务机器人：环境与互联网图片相似度较高，可优先选择 CLIP / BLIP 类视觉 backbone。
专业领域（手术机器人、工业检查等）：可以先用自监督方法在领域内的无标注图像上做额外预训练，再与语言对齐。
资源受限平台：可能需要从较小的 CNN/ViT 结构开始，再通过知识蒸馏等手段迁移大模型的表示（见 10.4 节）。

9.1.2.2 语言模型初始化

语言侧的选择更加多样，大致可以分为两类：

1）轻量级文本编码器

如 BERT / RoBERTa 风格的编码器，输入为子词 token 序列，输出句子 embedding 或每个 token 的 contextual 表示。特点：

模型尺寸中等，适合嵌入式部署；
适合作为“指令编码器”，将任务描述转为固定维向量，供决策模块条件使用。

这类模型通常已经在大规模文本语料上预训练，具备较强的语义理解能力，对于“把红色方块放进盒子”这类简单指令完全够用。

2）大语言模型（LLM）作为语言 backbone

更激进的路线是直接使用 GPT/T5/LLAMA 级别的大语言模型作为语言 backbone：

优点：具备丰富世界知识和推理能力，可对任务指令做更复杂的改写、分解和解释。
缺点：推理开销较大，延迟和内存压力重，对实时控制是挑战。

许多最新 VLM / VLA 工作的做法是：冻结大部分 LLM 参数，只在其输入侧或中间插入少量可训练模块（如 LoRA、Adapter），在保证语言能力的前提下调节其对视觉和动作信号的响应（第 2.5.3 节已介绍参数高效微调思想，这里不再赘述）。

9.1.2.3 冻结 vs 微调

初始化只是第一步，接下来要决定：这些预训练的 backbone，要不要继续训练？如何训练？

可以从以下几个层次理解：

1）完全冻结（全冻结）

做法：

视觉 encoder 和文本 encoder 完全不更新；
仅在其上方训练一个较小的多模态融合 + 动作解码头。

优点：

最稳定、安全，不会破坏预训练好的通用能力；
计算和显存开销小，适合数据非常少的场景。

缺点：

对特定机器人视角、噪声形态、指令风格的适应能力有限；
对具有明显领域偏移的场景（工业、医疗）效果可能较差。

LiT 的结果表明，在某些情况下，“锁死图像模型，只训练文本侧”可以达到很强的零样本性能，这对机器人提示我们：合理的冻结策略本身就是一种强有力的先验 。(arXiv)

2）部分微调 / 分层解冻

只微调 backbone 的高层（靠近输出的几层），保留底层边缘/纹理特征；
或者采用“逐层解冻”（逐步解冻）：先只训练新增头部，稳定后再逐层解冻 backbone 深层。

优点：在保持大体分布的同时，让模型适应机器人视角、相机畸变、特定语言风格。

3）参数高效微调（PEFT）

如 LoRA、Adapter、Prefix Tuning 等，只在 backbone 内部插入小规模可训练参数。优点：

几乎不改变原有权重，避免灾难性遗忘；
可以为不同机器人 / 任务维护多套“适配器”，共用同一个基础模型。

在机器人 VLA 中常见做法是：

冻结大部分 CLIP/LLM 参数；
在跨模态对齐层或动作解码层插入 LoRA/Adapter；
使用机器人多模态数据训练这些轻量参数。

4）如何选择策略？一个实用经验

机器人数据极少（几十到几百条演示）：倾向冻结 backbone + 仅训练头部或 PEFT 。
有中等规模数据（上万条演示）：可以部分微调高层，尤其是靠近动作解码器的一侧。
仿真可生成极大规模数据：可以尝试全模型微调，甚至在仿真中从强初始化开始继续预训练。

9.1.3 自监督 / 半监督任务在预训练中的作用

互联网图文预训练提供的是**“人类视角的语义先验”**，而机器人自身的传感数据（机器人的第一人称视角、低机位、特定传感器噪声等）往往分布不同。

为了充分利用大量 无标注或弱标注的机器人数据，自监督与半监督任务成为连接互联网预训练与具身学习的重要桥梁。

9.1.3.1 掩码建模

掩码建模（Masked Modeling）是一类非常通用的自监督方法，包含两种典型形式：

1）掩码语言建模（MLM）

在输入句子中随机遮盖部分 token（例如用 [MASK] 替代）；
训练模型根据上下文预测被遮盖 token；
BERT 系列模型就是通过 MLM 预训练的代表。

对机器人而言，MLM 可用于让模型熟悉任务描述的语言模式，并强化对动作说明、约束条件等关键字的敏感度。

2）掩码图像建模（MIM）：以 MAE 为代表

MAE（Masked Autoencoders）将掩码思想引入图像：

将图像分割为多个 Patch，随机遮挡其中大部分（例如 75%）；
编码器只处理可见 Patch，解码器从潜在表示 + 掩码 token 中重建完整图像；(arXiv)
通过重建误差作为训练信号。

这类方法的直觉是：要填补被遮挡区域，模型必须学会图像中物体的结构与上下文关系，而不是仅仅记住局部纹理。

进一步地，还有同时对图像和文本做掩码建模的多模态 MAE（如 M3AE 等），在 awesome-VLP 汇总中可以找到一系列工作，它们利用多模态掩码任务学习可迁移的视觉–语言表示。(GitHub)

在机器人场景中，可以将机器人第一视角摄像头的连续画面 作为 MIM 的训练对象，让模型更好地适应真实硬件和环境下的视觉分布，为后续 VLA 预训练提供“贴地气”的视觉基座。

【图 9-4 占位：多模态掩码建模示意图。一侧是被遮挡 Patch 的图像，另一侧是遮挡 token 的指令文本，解码器联合重建。】

9.1.3.2 顺序预测

具身智能本质上是时序决策问题，因此“顺序预测”（Sequential Prediction）类自监督任务与机器人高度契合。

常见形式包括：

1）语言序列的下一个 token 预测

这是自回归语言模型（GPT 类）的经典预训练目标：给定前面一串 token，预测下一个 token。它让模型习得语法、知识及一定程度的推理能力（第 4.2 节已详细介绍）。

2）视觉 / 视频序列预测

未来帧预测（Future Frame Prediction）：给定过去几帧图像，预测下一帧图像或其特征；
视频片段顺序判别：打乱一段视频的帧顺序，让模型判断是否在正确顺序或恢复正确顺序。

对机器人而言，这类任务相当于训练一个粗略的“世界模型”：在不执行真实动作的情况下，想象环境会怎样变化 。

3）动作 / 轨迹序列预测

在拥有大量机器人交互轨迹（甚至无任务标签）的情况下，可以构造纯自监督任务：

给定过去若干步的观察和动作，预测下一步动作（或状态）；
给定轨迹的前半段，预测后半段动作 / 状态。

这些任务不需要外部奖励或成功标注，但能让模型学习到动作–状态之间的因果结构，后续行为克隆或 RL 微调会更高效。

9.1.3.3 半监督学习

在许多领域，图像远多于配对文本，或者只有少量专家标注的图文或轨迹。半监督学习的目标是：

利用少量标注 + 大量未标注数据，获得接近全监督的效果。

在视觉–语言预训练中，典型例子包括：

1）S-CLIP：少量 caption + 大量无标注图像

S-CLIP 针对专业领域（遥感、时尚、科学图表等）提出了一种半监督 CLIP 训练方法：

有少量带 caption 的图像，以及大量没有 caption 的图像；
通过最优传输和部分标签学习等策略，为未标注图像生成“伪 caption”或关键词；
结合对比学习和伪标签训练，大幅提升目标领域的零样本性能。(arXiv)

这一思路可以直接迁移到机器人：例如，在一个工厂或家庭环境中，只为少数场景人工编写多模态说明，其余大量相似场景通过 VLM 自动生成伪标签，作为额外训练信号。

2）VLM 辅助伪标注：BLIP 的 Caption Bootstrapping

BLIP 提出用已经训练好的 captioner 为 Web 图像生成新描述，并利用过滤器剔除明显不可信的 caption，从而在“噪声 Web 文本”之上**“自举”出更干净的监督信号** 。(arXiv)

在机器人数据上可以采取类似做法：

用预训练 VLM / LLM 自动为机器人轨迹打上语言标签（任务描述、错误原因等）；
使用人工审核少部分样本，训练一个过滤模型；
将高置信度伪标注加入训练，充当“廉价的弱监督”。

3）一致性正则与教师–学生模型

与图像分类中的半监督类似，VLA 预训练也可以引入：

对未标注样本做多种数据增强（不同视角、裁剪、颜色变换等），要求模型输出的一致性；
使用 teacher–student 架构（例如 EMA 均值教师），teacher 生成伪标签，student 学习，并不断更新 teacher。

总的来说，自监督 / 半监督任务使我们能充分压榨机器人摄像头全天候采集的海量未标注数据，在不增加太多标注成本的情况下显著增强预训练效果。

9.1.4 多任务预训练与损失加权

到目前为止，我们分别介绍了对比学习、掩码建模、顺序预测、半监督等任务。实际系统中，往往不会只训练一个目标，而是在同一个模型上并行优化多个任务，形成多任务预训练框架。

这带来两个问题：

如何设计多任务结构？
多个损失之间如何加权？

9.1.4.1 多任务预训练

多任务预训练（Multi-Task Pre-training）的基本思路是：共享一个主干网络，并在其上附着多个任务头，同时优化多种损失。

以 BLIP 为例，它在一个多模态编码–解码架构上同时优化：(arXiv)

图文对比损失（Image–Text Contrastive, ITC）
图文匹配损失（Image–Text Matching, ITM）
语言建模损失（LM）

部分工作还会加入：

掩码语言建模（MLM）或掩码多模态建模（M3AE、SIMLA 等）；
视觉侧的分类或检测辅助任务；
动作预测或行为克隆损失（在已经拥有机器人轨迹数据时）。

【图 9-5 占位：多任务预训练结构示意图。底部为共享视觉–语言编码器，顶部挂接 ITC、ITM、MLM、动作预测等多个任务头。】

对于 VLA 预训练，一个典型的多任务组合可能是：

任务 A：图文对比，学习通用图文对齐；
任务 B：掩码建模（图像 / 文本 / 视频），学习局部结构和长程依赖；
任务 C：行为克隆预训练，输入（图像，指令，历史动作），预测下一步动作；
任务 D：离线 RL 或奖励预测（如果有奖励信号）。

通过共享 backbone，模型在优化任务 C/D 时可以同时利用任务 A/B 学到的概念和物理直觉；反过来，任务 A/B 的泛化能力也会因接触“动作和后果”的数据而增强。

9.1.4.2 损失函数加权

多任务预训练中的难点在于：不同任务的损失尺度、收敛速度、难度都不同，如果简单地把它们相加，可能导致：

某个损失主导梯度更新，其他任务几乎“学不到东西”；
有的损失指数级下降，有的基本不动，训练不稳定。

常见的损失加权策略包括：

1）手工设定固定权重

最朴素也最常见的做法：

\[ \mathcal{L}_\text{total} = \lambda_1 \mathcal{L}_\text{ITC}

\lambda_2 \mathcal{L}_\text{ITM}
\lambda_3 \mathcal{L}_\text{MLM}
\lambda_4 \mathcal{L}_\text{BC}
\cdots \]

优点是实现简单；缺点是需要大量实验调参，且不同数据规模、模型大小下最佳权重不同。

2）基于不确定性的动态加权（Kendall 等）

Kendall 等提出了一种基于任务 homoscedastic 不确定性 的加权方式，把不同任务的损失缩放系数视为需要学习的参数：(CVF开放获取)

对任务 \(\displaystyle i\) 的损失 \(\mathcal{L}_i\)，总损失可写为

\[ \mathcal{L}_\text{total} = \sum_i \left( \frac{1}{2\sigma_i^2} \mathcal{L}_i + \log\sigma_i \right) \]

其中 \(\sigma_i\) 是可学习的“任务不确定性”，训练过程中会自动调整，使得：

损失较大的任务（噪声大或难学）获得相对较小权重；
损失较小、易优化的任务权重相对更大。

这一方法的优势在于：

不需要手动指定各任务权重；
可以自适应不同任务在不同训练阶段的重要性。

3）梯度平衡与学习进度驱动的加权

其他方法（如 GradNorm、基于任务学习进度的动态权重等）通过平衡不同任务的梯度范数或收敛速度，让每个任务都能“公平地”参与训练。

在 VLA 预训练中，常见的实际工作流是：

先采用简单的固定权重，快速跑通训练流水线；
在较稳定的基础上，引入不确定性加权或梯度平衡方法，进一步提升性能；
在特定阶段（如开始加入 RL 目标时）动态调整权重，避免新目标“毁掉”已有能力。

9.1.4.3 课程学习

多任务预训练之外，课程学习（Curriculum Learning） 强调的是“任务顺序”而不是单步的损失加权。

直觉：先让模型学习简单的任务与样本，再逐步提高难度，可以获得更稳定、更好的训练效果。

在 VLA 预训练中，可以从 任务维度 和 ** 数据维度** 设计课程。

1）按任务复杂度分阶段

一个典型的课程可以是：

阶段 1：单模态预训练 视觉侧做 MAE / 对比学习，语言侧做 LM / MLM，训练出各自稳定的 backbone。
阶段 2：图文对齐 加入 CLIP 式对比任务和 ITM，让图像与文本进入统一语义空间。
阶段 3：加入动作预测 / 行为克隆 在共享 backbone 上添加动作解码头，开始使用机器人轨迹数据，学习“视觉 + 语言 → 动作”的映射。
阶段 4：加入奖励或 RL 目标（第 9.3 节） 在已有策略基础上引入奖励优化，细化策略的稳定性和效率。

各阶段之间也可以有重叠，例如阶段 2 后期就少量混入阶段 3 的损失，使过渡平滑。

2）按样本难度设计数据课程

例如：

在图文对齐时，先使用“描述比较准确、文字较规范”的网络数据（如精挑的 caption），再逐渐加入噪声更大的 alt 文本；
在机器人数据上，先训练简单场景（物体少、布局固定），再逐步引入复杂场景（遮挡、多物体、动态干扰）；
在动作预测上，先用短轨迹、任务步骤清晰的数据，再加入长序列或包含失败案例的数据。

【图 9-6 占位：VLA 预训练课程学习时间轴示意图，展示预训练阶段如何从“单模态”逐步走向“多模态 + 动作 + RL”。】

通过多任务预训练和课程学习的组合，我们可以将“互联网世界”中的视觉–语言知识与“机器人世界”中的物理–动作经验逐步融合，为后续模仿学习和强化学习阶段打下坚实基础。这也是当下具身基础模型研究的一个核心思路：先尽量在离线数据中把能学的都学掉，再把机器人宝贵的在线交互用在“最后那一点点差距”的弥合上。

Keyboard shortcuts

Robotic Embodied Intelligence - From Zero to Hero