12.1 更通用的具身基础模型 - Robotic Embodied Intelligence

在前面章节中，我们已经看到 VLA 模型如何把视觉、语言和动作统一到一个序列建模框架中。随着数据规模、模型规模以及机器人平台的不断扩展，一个自然的问题是：是否可以像 GPT 之于自然语言一样，构建“具身基础模型”（robotics / embodied foundation models），在不同机器人、不同任务和环境之间共享同一个“大脑”？

近年的 Open X-Embodiment、RT-X、RT-1/RT-2、OpenVLA 等工作已经给出了早期答案：通过汇聚多机器人、多任务的示教数据，在统一的 Transformer 架构上进行大规模预训练，可以得到跨平台迁移能力较强的通用控制策略。(arXiv)

本节将进一步从三个方面展望更通用的具身基础模型形态：

统一感知–语言–动作–记忆的长序列建模：模型不再只看“当前几帧图像 + 指令”，而是能在长时间尺度上整合多模态历史和长期记忆。
跨模态世界模型与规划能力：模型内部拥有可“想象”未来的世界模型，并在多模态空间（图像、语言、动作）中进行规划与推理。
多机器人协作与群体智能：从单一机器人扩展到机器人群体，让基础模型在多智能体场景中学习协同、通信和分工。

12.1.1 统一感知–语言–动作–记忆的长序列建模

传统 VLA 更多关注“短序列”：几十到几百步的感知–动作序列，以及一句或几句指令。在真实应用中，机器人往往需要：

记住数小时甚至数天前发生过什么；
融合多种传感器（视觉、力觉、触觉、语音、机体状态等）；
跨任务、跨场景复用过去经验。

这意味着仅靠固定长度的 Transformer 上下文已经不够，需要在模态扩展与时间尺度扩展上同时进化。

【图 12-1：示意一条统一时间轴，沿时间维度排布图像帧、语言 token、关节状态、力觉读数和动作命令，每个都被编码为 token 输入同一个 Transformer。】

12.1.1.1 模态融合扩展

当前的 VLA 多以“视觉 + 文本 + 动作”为主。例如 RT-1 / RT-2 和 OpenVLA 将图像帧、自然语言指令和机器人关节/末端命令统一编码为 token 序列，输入同一个 Transformer 决策器。(robotics-transformer-x.github.io)

未来更通用的具身基础模型会在模态上进一步扩展：

感知层扩展

这些信号可以通过专门编码器（CNN/ViT、RNN/Transformer、MLP 等）转换成一系列向量 token，再按时间对齐后送入统一的序列模型。

视觉：不再只有 RGB，相机可能包括深度图、鱼眼、全景、多视角甚至事件相机；
触觉与力觉：高维的触觉阵列、关节力矩传感器、六维力/力矩传感器等，反映接触和相互作用；
机体状态：关节角、速度、温度、电流、电池电量等内部状态；
语音与声音：语音命令、环境噪声，可用于人机交互和安全监控。

统一时间轴与多频采样

不同传感器的采样频率差异巨大：

典型做法包括：

视觉 10–60 Hz；
力觉和关节状态可到 100–1000 Hz；
语言指令可能是几十秒才更新一次。
在较粗的时间步（如 10 Hz）上建模，使用统计或卷积池化将高频信号压缩到该时间步；
引入层级时间建模：底层网络处理高频控制，顶层网络在低频节奏上决策（与机器人控制章节呼应）。

这样可以在不牺牲关键信息的前提下，把多模态信息统一描述在同一条序列上。

高效注意力与结构化融合

当所有模态 token 都放进一个自注意力网络时，复杂度会随序列长度平方增长，这在长序列、多模态下极易失控。未来的架构通常会采用：

稀疏/分块注意力：例如对视觉 token 只在空间邻域内自注意，对时间和语言采用更稀疏的连接；
分组注意力：不同模态内部先各自进行自注意，再通过跨模态注意力交互；
图结构：把机器人不同部件、不同传感器看作图中的节点，仅在有物理或任务关系的节点间做消息传递。

【图 12-2：多模态 Transformer 结构示意图，分别显示视觉、语言、机体状态、力觉四类 token，经各自编码后在中间层通过稀疏自注意力和跨模态注意力融合。】

12.1.1.2 长期记忆

即便使用更高效的注意力结构，单个 Transformer 上下文仍然难以覆盖数小时乃至“终身”的交互历史。因此需要在序列模型之外设计长期记忆系统，类似于“记忆增强版大模型（memory-augmented models）”。(massimilianovurro.com)

短期工作记忆 vs 长期持久记忆

类似检索增强的 RL 与 Decision Transformer，会在当前状态基础上从外部记忆中检索相关子轨迹，提高决策能力。(Proceedings of Machine Learning Research)

工作记忆：模型当前上下文窗口内的若干百步历史，主要由 Transformer 自注意力负责；
长期记忆：以外部存储形式保留过往的轨迹、地图、用户偏好、失败经验等，可以跨任务甚至跨天、跨月保留。

外部记忆的形式

在机器人场景中，长期记忆通常具有多种结构化形式：

近年来大量工作探讨多模态记忆在视觉和机器人中的应用，如为导航与操作提供长期上下文。(GitHub)

轨迹记忆库：存储过去任务中的感知–动作–奖励序列，可以按“场景相似度”“任务类型”“语言指令”检索；
知识库 / 语义图：存储“某个房间有哪些物体”“某用户习惯把什么放在哪”等抽象语义关系；
地图与对象数据库：比如 SLAM 生成的拓扑/栅格地图，以及已知物体的 3D 模型、位姿分布等。

检索与更新机制 长期记忆要解决两大问题：如何取用和如何写入。典型思路包括：
- 检索：
  - 通过 learned embedding 或 kNN，根据当前感知+指令在记忆库中查找“相似场景”;
  - 使用注意力机制在大量候选记忆中软选择少量高相关子轨迹（如 Retrieval-Augmented RL、Retrieval-Augmented Embodied Agent）。(Proceedings of Machine Learning Research)
- 更新：
  - 机器人完成任务后，将经验以“摘要”形式写入：如一条轨迹 + 成功/失败标记 + 语言总结；
  - 对冗余或过时记忆进行压缩或遗忘，避免无限膨胀和概念漂移。

【图 12-3：带外部记忆的 VLA 框架示意图：Transformer 主体左侧接收当前多模态输入，右侧通过检索接口连接一个“经验库”，检索得到的关键轨迹片段再反馈给 Transformer 用于决策。】

记忆类型与机器人行为 可以借鉴认知科学，把机器人记忆分为：

具身基础模型的长期记忆机制，很可能会自然形成这三类记忆的某种分工，从而支持更高层的推理（在 12.2 节将与终身学习联系起来）。

情景记忆（episodic）：具体任务执行过程，如“上周清理厨房时的操作轨迹”；
语义记忆（semantic）：抽象的世界知识，如“抽屉一般向外拉开”；
程序记忆（procedural）：技能级策略，如“如何平稳端起一杯水”。

12.1.1.3 世界模型

世界模型（World Model） 指的是机器人内部学习到的、可预测环境未来变化的生成模型。与传统的显式物理仿真不同，世界模型通常通过神经网络从数据中学习，反映“观察–状态–动作–结果”的统计规律。(arXiv)

基本构成 典型世界模型会显式或隐式包含三个模块：

例如 World Models、PlaNet、Dreamer 等工作，皆通过这种潜在空间的世界模型实现从图像输入的长视野控制。(arXiv)

表示模型（encoder）：将高维观测（图像、深度图等）编码为紧凑的潜在状态 $ z $ ；
动态模型（transition）：给定当前潜在状态和动作，预测下一时刻的潜在状态；
解码模型（decoder）：从潜在状态生成预测的观测（未来图像帧、深度图等）以及奖励或任务进展信号。

角色：机器人“想象力”的载体

世界模型的关键价值，在于让机器人可以在内部“做梦”或“想象”：

离线规划与评估：在真实执行之前，机器人可以在世界模型中模拟不同动作序列的结果，从中选出代价较低的一条；
数据效率提升：在有限真实数据基础上，通过世界模型生成额外“虚拟轨迹”，用于训练策略（类似 Dyna、Dreamer 这类模型）；
安全性：在执行潜在危险动作前预演可能后果，如预测是否会碰撞或打翻玻璃杯。

与长期记忆的关系

当二者结合时，机器人可以既依据一般规律预测未来，又能依据具体经验做出更加贴合现实的决定：例如世界模型知道“抽屉可以被拉开”，长期记忆知道“这个抽屉之前卡住过要用更大力 / 角度”。

世界模型更像是“环境的物理与语义规律”：如果在状态 $ s $ 做动作 $ a $ 会出现什么；
长期记忆更像是“个体经历”：曾在某个房间做过什么、有过哪些成功或失败案例。

【图 12-4：世界模型结构示意图：左侧从图像编码为潜在状态，中间用 RNN/Transformer 做潜在动态演化，右侧再解码回未来图像和奖励。】

12.1.2 跨模态世界模型与规划能力

上一小节从“长序列和记忆”的角度引出世界模型，本节进一步强调：真正通用的具身基础模型，其世界模型本身也应是“跨模态”的。换句话说，它不仅能预测未来的视觉帧和物理状态，还可以在语言、符号和动作空间中进行交互式推理和规划。

12.1.2.1 世界模型（跨模态视角）

从跨模态的视角来看，一个理想的世界模型应具备以下特点：(科学直通车)

统一潜在状态表示

例如，$ z $ 可同时支持问题：“如果执行该动作，下一帧会看到什么画面？”以及“用一句话描述刚才发生了什么？”

将视觉、触觉、机体状态、语言指令等都嵌入到一个共享的潜在空间 $ z $ 中；
这个 $ z $ 能同时被“视觉解码器”还原成图像、“语言解码器”转换成自然语言描述、“状态解码器”还原为物理量。

条件化动态

例如，指令从“打扫桌面”改为“只整理左侧书本”，世界模型生成的“合理未来”应明显不同。

在给定指令或任务上下文的条件下，世界模型可以预测在遵循该指令时环境将如何演化；
这类似于“带任务条件的物理模拟器”：同样的物理环境，按照不同任务策略，未来的轨迹会有显著差异。

不止会“看”，还能“说”

传统世界模型主要输出图像或状态序列。跨模态世界模型还可以：

这使得人类可以通过语言直接与世界模型交互，更易于理解和调试。

生成自然语言解释（例如对模拟轨迹进行总结）；
接受自然语言问题，对未来的模拟结果进行问答。

【图 12-5：跨模态世界模型示意图：中间是统一潜在状态，左侧是图像解码器，右侧是文本解码器，下方是物理状态解码器，上方是动作/指令条件输入。】

12.1.2.2 跨模态交互

跨模态世界模型带来的新能力之一，是让机器人能够以类似“脑内演算 + 语言思考”的方式与世界进行交互。(CVF开放获取)

语言条件的想象（language-conditioned imagination） 示例流程：

人类甚至可以直接要求机器人“先给我看一下可能的执行方式”，由世界模型生成几段短视频或帧序列供确认。

人类： “把台面上的玻璃杯挪到右侧架子上，不要打翻任何东西。”
机器人：将指令编码后，调用世界模型生成若干“候选执行方式”的模拟视频/轨迹；
再由语言模块读取这些模拟结果，回答诸如“哪条方案更安全”“是否有可能碰到桌上的花瓶”。

从视觉到语言，再回到动作

这样，规划过程是可解释的：每一步都可以用语言解释“为什么这样走”。

机器人通过视觉观测场景，用语言模块生成内部描述（例如“桌上有两个杯子，一个玻璃一个塑料，右侧有一个空架子”）；
世界模型在这个语言–视觉–动作的联合空间中模拟未来，输出既有图像又有文本解释的“计划脚本”；
最终 VLA 决策头将这些高层计划翻译为细致的动作序列。

跨模态一致性与自监督

在训练过程中，跨模态世界模型还可以利用自监督的跨模态一致约束：

这种一致性学习，有助于提升模型对物理规律与语言描述之间关系的理解。

给定一段视频，模型需要同时预测其未来帧和未来的语言解说；
给定语言脚本，模型要生成对应的视觉轨迹。

【图 12-6：跨模态交互示意图：左侧输入当前图像和指令，中间世界模型展开多条候选未来轨迹，右侧语言模块对每条轨迹给出解释和风险评估。】

12.1.2.3 规划推理

有了跨模态世界模型，规划不再只是“在状态空间里搜索动作序列”，而是可以在视觉–语言–动作联合空间中进行更加灵活的推理。(arXiv)

基于世界模型的规划（model-based planning）

基本思路与 Dreamer、MuZero 等工作类似：在世界模型中模拟不同动作序列的结果，挑选返回值最高的一条。区别是：

规划方法可以是：

这里的状态不仅是隐变量和奖励，还包括未来观察到的图像和语言解释；
规划时可以显式加入语言约束（例如“避免打碎任何玻璃物品”），并在模拟轨迹上检查是否违反。
随机射击或 CEM（随机生成若干动作序列，保留较优者迭代优化）；
MCTS 树搜索（在世界模型中扩展搜索树）；
结合梯度的轨迹优化（在可微世界模型中直接优化连续动作）。

分层规划：语言–符号–几何的协同

通常会采用分层规划框架：

具身基础模型可以在中高层同时发挥作用：既参与子任务分解，又担任模拟器，统一了传统“符号规划 + 物理规划”的分裂结构。

高层（语言/符号层）：由语言模型或符号规划器生成一系列子目标/子任务（如“清空桌面 → 打开放置柜 → 逐个搬运物品”）；
中层（世界模型层）：在每个子目标下，用世界模型评估不同策略的可行性和风险；
低层（几何/控制层）：最终在真实机器人或高保真仿真中生成可执行轨迹。

带不确定性的推理与安全规划

世界模型必然是不完美的，它的预测存在不确定性。为了安全起见：

模型可以对未来的预测给出不确定度估计，例如“80% 可能不会碰到花瓶，20% 可能发生轻微碰撞”；
规划算法可以将这种不确定性纳入代价函数，例如对高不确定性轨迹进行惩罚；
在高风险场景中，机器人可以主动请求人类确认，或者选择更保守的策略。

【图 12-7：分层规划框架示意图：顶层语言 LLM 负责任务分解，中层跨模态世界模型负责模拟和评估，底层运动规划模块负责生成可执行轨迹。】

12.1.3 多机器人协作与群体智能

如果说“具身基础模型”解决的是 “单个机器人如何更聪明地行动”，那么下一步必然要面对的问题是：多个机器人如何在同一模型或同一知识体系下实现协作与群体智能。

从产业角度看，无论是仓储物流的海量移动机器人、工厂中协同搬运的机械臂，还是灾害救援中的无人机集群，多机器人系统相较单机具有更强的效率和冗余，但也带来任务分配、通信、冲突避免等一系列挑战。多智能体深度强化学习和群体机器人（swarm robotics）领域已经积累了大量成果，为未来的“群体具身基础模型”提供了理论基础。(MDPI)

【图 12-8：多机器人协作示意图：若干移动机器人在仓库中协同搬运货物，中心有一个共享的世界模型与任务调度模块，各机器人之间通过无线网络交换少量消息。】

12.1.3.1 协同策略

在多机器人系统中，“策略”不再是单个智能体的映射，而是一个联合策略 $ \pi(a_1, \dots, a_N | o_1, \dots, o_N) $，或者多智能体分别的局部策略 $ \pi_i(a_i | o_i, m_i) $（其中 $ m_i $ 代表收到的消息）。为了实现高效协同，常见范式包括：(MDPI)

集中训练、分布执行（CTDE）
- 训练时，所有机器人共享一个（或若干个）具身基础模型，能够访问全局观测和其他机器人内部状态；
- 执行时，每个机器人仅使用本地观测和少量通信消息进行决策；
- 这种范式能够在训练中利用全局信息提高样本效率，而在部署时保持分布式的鲁棒性。
角色与技能的显式分工
- 不同机器人可以在模型中被编码为不同“角色”（如“搬运”“侦察”“清扫”），每个角色对应不同的技能集；
- 具身基础模型可以利用“机器人 ID + 角色 embedding”的方式，在同一参数集下实现多机器人异质决策（这一点与 8.5 节的多机器人共享模型相呼应）。(arXiv)
隐式协同：通过共享世界模型
- 即使不显式引入消息传递，多个机器人在共享的世界模型/价值函数上优化时，也可能出现“涌现式协作”行为；
- 例如在仓储场景中，机器人可能自动学会错峰通过狭窄通道、轮流进入装卸区，以提高总体吞吐量。

【图 12-9：CTDE 框架示意：训练阶段中央服务器看到所有机器人观测和动作，更新共享策略；执行阶段每个机器人仅用局部信息和共享策略进行独立决策。】

12.1.3.2 通信与分工

多机器人协作离不开信息交换和任务分工。在基础模型的框架下，可以把机器人间通信看作另一种“模态”，通过序列建模统一处理。(MDPI)

通信形式 具身基础模型可以在内部学习“哪些信息值得通报”，而不是预定义通信协议。例如，多智能体 RL 中常见的图网络架构，可被视为一种“可微通信”机制。(机器学习研究杂志)
- 隐式通信：机器人通过观察他人的动作或环境变化推断其意图，无需显式消息（类似人类通过肢体语言协同）；
- 结构化消息：使用固定格式的向量或符号信息（如位置、负载、优先级），通常通过图神经网络进行消息传递；
- 自然语言 / 类语言通信：在更高层次，机器人可以使用文本或压缩后的“伪语言 token”交流任务意图和状态摘要。
动态任务分配与负载均衡
- 在复杂场景中，任务往往是不断到来的，如新订单、新救援目标；
- 中心调度器或分布式协商算法需要考虑每个机器人的位置、剩余电量、当前任务负载等因素，动态分配任务；
- 具身基础模型可以在此扮演“学习型调度器”，通过大量历史数据学习到高效的任务分配策略，例如实时优化通道拥堵和整体效率。(arXiv)
共享记忆与协作策略库
- 与 12.1.1.2 的长期记忆类似，多个机器人可以共享一个“团队记忆库”，记录过去协作中使用过的策略和结果；
- 检索增强的具身智能（如 Retrieval-Augmented Embodied Agents）已经尝试让多个机器人从共享策略库中检索过去类似场景下的成功策略，再组合生成新策略。(CVF开放获取)

【图 12-10：多机器人通信与分工示意：机器人以图节点形式存在，边表示通信链路，每个节点从邻居接收消息并更新本地策略，中央或分布节点负责分配新任务。】

12.1.3.3 群体智能

群体智能（Swarm Intelligence） 是多机器人协作的更极端形态：大量简单机器人通过局部规则和有限通信，实现全局复杂行为。与传统的“少数高能力机器人”相比，群体机器人系统具有更高的鲁棒性和可扩展性。(ResearchGate)

经典群体机器人范式
- 灵感来自蚂蚁觅食、蜜蜂分工、鸟群/鱼群聚集等自然系统；
- 典型任务包括集群移动、覆盖、搜索救援、分布式建造等；
- 控制策略多采用局部规则+随机性，无需全局控制器，仅依靠简单行为的叠加产生“涌现行为”。
多智能体深度强化学习在群体中的应用
- 近年来，多智能体深度 RL 已经被用来训练成百上千个机器人在复杂环境中协同工作，如队形控制、障碍绕行、资源分配等；(MDPI)
- 世界模型可以在此扮演“群体级模拟器”的角色，用于训练和评估大规模群体策略；
- 相比手工设计局部规则，学习得到的局部策略有望更适应复杂环境、具有更高的任务完成率。
群体具身基础模型的愿景 未来的一个重要方向，是构建面向群体的具身基础模型，使得：
- 同一个模型能够控制从数个到数百个机器人，且性能随规模扩展不明显退化；
- 模型不仅学习个体如何运动，还学习群体结构如何形成（如自动分组、形成队形、建立临时网络）；
- 高层可以通过简单的语言指令（如“搜索整个楼层”“协助人群疏散”）对群体下达命令，模型自动在群体内部完成分解与分工。(techrxiv.org)

【图 12-11：群体智能示意图：上图展示几十个简单移动机器人在仓库中形成自组织交通流；下图展示一个“群体具身基础模型”通过高层指令控制整个群体的整体行为。】

本节从长序列多模态建模、跨模态世界模型与规划以及多机器人协作与群体智能三个维度，对“更通用的具身基础模型”做了系统展望。下一节（12.2）将进一步聚焦模型的泛化与自适应能力，讨论如何让这些基础模型在极少样本、新环境和长期部署的场景中持续保持“越用越聪明”。

Keyboard shortcuts

Robotic Embodied Intelligence - From Zero to Hero