0.1 VLA 与具身智能的基本概念 - Robotic Embodied Intelligence

0.1.1 具身智能（Embodied Intelligence）的定义与核心问题

0.1.1.1 具身智能的基本定义

从直观上看，“具身智能”就是有身体的智能：智能体不再只是云端的一段代码，而是附着在某种物理载体上——机械臂、轮式底盘、四足机器人、无人机、甚至未来的类人机器人——通过传感器感知环境，再通过执行器对环境施加影响。(MDPI)

比起纯软件 AI，具身智能至少多了三个关键要素：

物理身体（Body）：带有质量、尺寸、关节、摩擦和磨损的实体，而不是抽象的“向量空间”。
传感器（Sensing）：摄像头、深度相机、IMU、力/力矩传感器、激光雷达、触觉皮肤等，用来把物理世界转成数据流。
执行器（Actuation）：电机、关节驱动器、轮子、喷气系统等，将决策转换成真实的力和运动。

一个具身智能体（embodied agent）通常被定义为：

具有物理形态，能够通过传感器感知环境，通过执行器对环境施加作用，并通过这种闭环交互产生、学习和体现智能行为的系统。(MDPI)

在本书中，“具身智能”主要指机器人具身智能：我们关注的不是抽象哲学讨论，而是如何让具体机器人——机械臂、移动平台、类人机器人——在现实世界里完成各种任务。

图 1-1（占位）：具身智能基本构成示意 建议绘制一个方框图：中间是“智能体”，内部有“感知模块”“决策模块”“控制模块”；左侧箭头为来自环境的传感器输入（图像、力觉等），右侧箭头为输出到环境的动作（关节力矩、末端轨迹等），整体构成一个闭环。

0.1.1.2 核心问题：感知–认知–行动的闭环

具身智能最核心的，不是“用了什么模型”，而是感知–认知–行动（Perception–Cognition–Action）的闭环 如何建立和运行。

感知（Perception）
- 将环境中的光、声、力等物理信号，转换成离散的数字观测：图像、点云、关节编码器读数等。
- 还需要做状态估计：例如从多帧图像中估计物体的 3D 姿态、机器人自身的位姿等。
认知 / 决策（Cognition / Decision-making）
- 在高层上理解“现在发生了什么”、“我在哪里”、“目标是什么”、“可能会发生什么”。
- 典型会涉及任务理解（来自语言指令）、场景语义理解、路径与动作规划、风险评估等。
行动 / 控制（Action / Control）
- 将高层决策转化成低层可执行的控制命令：关节目标位置、速度、力矩，或者末端位姿增量等。
- 同时要满足物理约束：电机极限、加速度上限、避免碰撞和自碰等。

关键在于，这是一个实时在线的闭环过程：机器人一边动作，一边观测新的环境状态，并不断根据反馈调整策略。闭环带来几类核心挑战：

实时性：感知、决策、控制的整体时延必须足够小，才能防止“看到的是刚刚的世界，操作的是此刻的机器”。
适应性：世界在不断变化，物体位置会变化、光照会变化、地面可能不平整，策略必须能适应分布偏移。
安全性：误判和延迟直接对应物理风险——撞到人、打翻物体、损坏设备——安全约束必须成为一等公民，而不是事后补丁。

图 1-2（占位）：感知–认知–行动闭环流程图 建议以时间轴画出：感知模块从环境读取信息 → 认知模块产生决策 → 控制模块输出动作 → 环境状态改变 → 再次感知，如同一个循环控制系统。

在纯软件 AI 中，模型错误最多导致“答错题”；在具身智能中，同样的错误会变成“砸到人”。这也是为什么具身智能研究必须同时考虑智能性 与工程可控性 。

0.1.1.3 具身智能的典型实例

为了让概念不那么抽象，这里列举几个日常能见到或正在快速出现的具身智能系统：

自主移动机器人
- 仓储物流中的 AGV / AMR（自动引导车 / 自主移动机器人），需要在复杂仓库内自主导航、避障、搬运货物。
- 外卖配送机器人、无人配送车，需要在室外环境中应对行人、车辆和路况变化。
家庭服务机器人
- 扫地机器人是最早大规模商业化的具身智能产品之一：通过简单传感器和策略完成地面覆盖、避障和回充。
- 新一代“家庭助手”机器人（如具备机械臂和视觉系统的家务机器人）正在尝试完成叠衣服、收拾桌面、做简单烹饪等任务。(卫报)
工业协作机器人（Cobot）
- 在制造业中与人协作的机械臂，需要在安全约束下完成装配、搬运等任务，同时感知人的位置与意图。
自动驾驶与无人机
- 自动驾驶车辆通过多种传感器感知道路环境，在速度、转向和制动之间做出实时决策。
- 无人机在城市或灾害场景中执行巡检、救援任务，对风场、障碍物和通信质量都有感知与适应需求。

这些系统的共同点是：

必须把“看懂世界”和“在世界中行动”结合起来。

本书在后续章节会从数学基础、机器学习到 VLA 架构，逐步展开“如何让这些具身系统更聪明、更通用”的技术路径。

0.1.2 从 CV / NLP 到 VLM，再到 VLA 的发展脉络

具身智能的崛起，并不是凭空出现，而是建立在过去十多年 CV（计算机视觉） 、NLP（自然语言处理） 和 ** 多模态学习** 的连续突破之上。

0.1.2.1 CV（计算机视觉）的演进：从特征工程到深度视觉

在深度学习普及之前，视觉主要依赖手工特征（如 SIFT、HOG） + 传统分类器（如 SVM、随机森林）来完成图像识别和检测。

2012 年，AlexNet 在 ImageNet 图像分类竞赛上以巨大优势夺冠，被普遍认为是深度学习在视觉领域的“分水岭事件”：它证明了在大规模数据和 GPU 支持下，多层卷积网络可以远远超越传统方法 。(维基百科)

此后几十个经典视觉任务迅速被深度网络主导：

图像分类：ResNet、DenseNet 等结构极大提升了识别精度。
目标检测：R-CNN 系列、YOLO 等方法能在自然场景中定位并分类多个物体。
图像分割：U-Net、Mask R-CNN 等结构让像素级理解成为现实。

再往后，视觉 Transformer（ViT）等架构开始出现，将 Transformer 引入图像领域，用全局自注意力替代或补充卷积。本书第 3 章会更系统地介绍这些视觉表示，但在这里需要记住一件事：

现代机器人视觉基本都站在深度视觉的肩膀上。

没有这波视觉革命，就没有今天 VLM 和 VLA 的数据基础与网络骨干。

0.1.2.2 NLP（自然语言处理）的演进：从统计到大语言模型

NLP 的发展路径与视觉类似，也经历了从“手工 + 统计”到“神经网络 + 大模型”的演变：

统计时代
- 以 n-gram 语言模型、HMM、CRF 和统计机器翻译为代表，主要依靠共现统计和概率图模型。
- 这一阶段的模型难以捕捉长距离依赖，对上下文理解有限。
神经网络时代
- 词向量（word2vec、GloVe）将离散单词映射到连续向量空间，为神经网络建模语言准备了输入表示。
- RNN / LSTM / GRU 等序列模型开始用于机器翻译、语言建模和问答。
Transformer 与大语言模型时代
- 2017 年提出的 Transformer 架构完全基于自注意力机制，抛弃了循环结构，实现了更高并行度和更长程依赖建模能力。(arXiv)
- 随着算力和数据规模的扩张，BERT、GPT 等大规模预训练语言模型出现；GPT-3 等模型以数百亿到千亿参数规模，在多种语言任务上展现出强大的生成与推理能力。(aryaxai.com)
- 2022 年开始，ChatGPT 等对话式系统的出现，让公众第一次直观感受到“语言模型几乎可以扮演一个通用文本助手”。(HatchWorks AI)

对机器人来说，这意味着：

我们第一次拥有能够“理解人类复杂指令、推理意图并生成多步计划”的通用语言模块。

这也为后续“用自然语言给机器人下任务”奠定了基础。

0.1.2.3 VLM（视觉–语言模型）的兴起：跨模态对齐的第一步

有了强大的视觉和语言模型，下一步自然问题是：能不能让模型同时理解图像和文本？

视觉–语言模型（VLM）正是回答这一问题的代表。以 CLIP 为例：(维基百科)

使用双编码器结构：一个图像编码器（通常是 CNN/ViT），一个文本编码器（通常是 Transformer）。
在海量图文对（image–text pairs）上进行对比学习：
- 让配对的图像–文本向量在特征空间中更接近；
- 让不匹配的图像–文本向量更远。
训练完成后，可以实现：
- 图文检索（以文找图、以图找文）；
- 零样本分类（用文字描述类别，无需额外标注即可做图像分类）；
- 图像内容粗粒度描述等。

其他 VLM（如 Flamingo、PaLI-X、BLIP 系列等）进一步加入生成能力和更复杂的跨模态推理，但共同点是：

VLM 让模型第一次在“屏幕世界”中同时理解图像和文本。

然而 VLM 主要还是“看图说话”或“用文字回答关于图像的问题”，它们不直接输出物理世界中的动作 。在机器人语境中，这种能力更适合作为“理解任务和场景的上层模块”。

图 1-3（占位）：从 CV / NLP → VLM → VLA 的演进谱系 建议画一条时间箭头：左边是单模态 CV / NLP，中间是 VLM（图像 + 文本对齐），右边是 VLA（图像 + 文本 + 动作轨迹），以示范模态的逐步扩张。

0.1.2.4 VLA（视觉–语言–动作）的出现：走向物理世界的关键一步

VLM 解决了“看图 + 理解语言”的问题，但还缺少一个关键环节：如何把这种理解转化为机器人动作？

这正是 VLA（Vision–Language–Action）模型的出发点。根据近年的综述与定义，VLA 通常指：(维基百科)

输入：视觉观测（单帧图像或视频） + 语言指令输出：可以直接在机器人上执行的低层动作（如末端 6-DoF 运动 + 手爪开合），通常以离散化的动作 token 或连续控制向量形式表示。

典型的 VLA 架构一般分两步：

视觉–语言编码
- 复用一个预训练的 VLM 或多模态大模型，将图像和指令编码到统一的隐空间中。
动作解码
- 在大量“（图像，指令，动作轨迹）”三元组示教数据上进行微调，学习从隐空间表示到具体机器人动作序列的映射。

Google DeepMind 的 RT-2 被广泛认为是确立 VLA 概念的重要工作之一：它在大规模互联网图文预训练基础上，利用真实机器人示教数据微调，使机器人具备“把网页学来的知识迁移到现实操作”的初步能力，例如理解“扔垃圾”“收拾桌面”等语义指令。(arXiv)

此后，包括 Octo、OpenVLA、Gemini Robotics 等在内的一系列 VLA 模型陆续提出，支持更多机器人平台、更复杂任务以及更高频实时控制。(arXiv)

从研究路线看：

CV / NLP：在各自模态里学会“看得懂 / 听得懂”。
VLM：在屏幕世界中学会“把看到的”和“说出来的”对齐。
VLA：在物理世界中学会“在理解之上行动”。

本书第 8 章会从架构角度系统展开 VLA 的设计，这里把它放在历史脉络中，作为一个过渡和总览。

0.1.3 VLA 在通用机器人与通用智能中的角色定位

有了 VLA 这个概念，还需要思考：它在更大版图中的位置是什么？ 也就是：VLA 对“通用机器人”和“通用人工智能（AGI）”意味着什么？

0.1.3.1 通用机器人的愿景：从专用工具到通用助手

传统工业机器人通常是“专用工具”：

工作空间固定（如生产线某一工位）。
任务高度确定（重复装配、焊接、搬运）。
编程方式偏底层（示教器逐点示教、手工编程轨迹）。

而所谓“通用机器人”（general-purpose robot）的愿景是：

任务多样：能在不同环境下完成清理、搬运、整理、协作等多种任务。
指令自然：人类用日常语言描述目标，而不是写程序或给出复杂坐标。
适应变化：面对新物体、新布局、新任务组合时，依然能凭借已有知识和少量演示快速适应。(arXiv)

在这样的系统中，VLA 模型被视作机器人的“通用大脑候选”：

通过视觉–语言–动作统一建模，从原始摄像头图像、自然语言指令直接生成低层控制命令。
同一模型可以在多个机器人平台和任务上共享，只需要对输入输出做适配。

当然，现实系统中 VLA 往往不会“单独统治一切”，而是与传统导航、运动规划、安全控制模块共同工作——这部分将在第 10 章详细展开。

0.1.3.2 VLA 模型的作用：把“人类友好指令”转成“机器人可执行行动”

从系统架构上看，VLA 模型扮演的是**“从语义到控制”的桥梁** 角色：

在输入侧
- 语言侧：接收用户的自然语言描述，例如“把桌上的五本书按大小从左到右排好”。
- 视觉侧：接收当前场景的相机图像或视频，理解桌子、书本的位置、姿态、遮挡等信息。
在内部表示侧
- 将“文本目标”和“视觉场景”映射到统一隐空间，形成对“当前状态 + 目标”的综合理解。
- 这种表示既包含语义抽象（例如“按大小排序”），也包含几何约束（书本的位置、可抓取区域）。(维基百科)
在输出侧
- 生成连续时间下的一系列动作：接近目标书本、调整姿态、闭合手爪、移动到目标位置、松开等。
- 在更高层，可以输出子任务序列或动作原语，由下层控制器进一步实现。

相比传统“人写规则 + 手工调参”的机器人系统，VLA 带来的变化主要有三点：

指令接口更自然：用户不用会编程，只需像与人类助手沟通一样给任务。
任务泛化能力更强：通过在多任务、多场景数据上的统一训练，模型有机会学习到跨任务共性的技能。(arXiv)
与大语言模型深度结合：可以直接利用 LLM 的规划和推理能力，生成步骤，再由 VLA 承接落地为动作（本书第 4、8 章会详细展开这种接口）。

0.1.3.3 里程碑意义：VLA 作为通往 AGI 的实践路径之一

“通用人工智能（AGI）”是一个仍然带有争议的概念，但有一个共识正在形成：

如果一种智能从来不与现实世界交互，只在文本或比特空间中“自言自语”，那么它的能力终究是受限的。

具身智能和 VLA 提供了一条**“从虚拟走向物理”的实践路径**：

在物理世界中检验理解与推理
- 语言模型在对话中会出现幻觉，但当它驱动机器人执行任务时，错误会有非常具体的表现（抓错物体、路径碰撞等），这迫使我们设计更严谨的评测和训练范式。(arXiv)
让模型在长时间、长尺度上积累经验
- 通用机器人需要在长期部署中持续适应环境变化，这与 AGI 中“终身学习、持续学习”的目标高度一致。
- 新一代 VLA 研究已开始引入世界模型、长序列记忆等模块，尝试让机器人能在内部模拟未来并规划行动。(arXiv)
统一多模态、多机器人、多任务的基础模型
- 最新的 VLA 系统（如 Gemini Robotics、Helix 等）强调一个模型可以驱动多种机器人形态（机械臂、双臂、类人等），并执行多种任务，向“具身基础模型”方向演进。(Reuters)

从这个角度看，VLA 的意义远不只是“让机器人更好用”：

对机器人学，它是通向“通用机器人助手”的关键一环；
对人工智能整体，它是把大模型能力从虚拟世界映射到物理世界的桥梁，为讨论“真正有用的 AGI”提供了具体实验平台。

图 1-4（占位）：VLA 在“AGI 版图”中的位置示意图 建议画一个同心圆或多层结构：最内层为“感知–控制”，外层为“多模态大模型”，再外一层为“具身基础模型 / VLA”，最外层为“AGI 应用场景”，展示 VLA 处于“多模态智能”和“物理世界”交汇处。

小结与后续衔接

在本节中，我们完成了三件事：

给出了具身智能 的工作定义，并强调了感知–认知–行动闭环和安全约束。
从历史脉络梳理了从 CV / NLP → VLM → VLA 的技术演进。
讨论了 VLA 在通用机器人和 AGI 中的角色，把它放在更大的技术版图中定位。

Keyboard shortcuts

Robotic Embodied Intelligence - From Zero to Hero