0.1.1 具身智能(Embodied Intelligence)的定义与核心问题
0.1.1.1 具身智能的基本定义
从直观上看,“具身智能”就是有身体的智能: 智能体不再只是云端的一段代码,而是附着在某种物理载体上——机械臂、轮式底盘、四足机器人、无人机、甚至未来的类人机器人——通过传感器感知环境,再通过执行器对环境施加影响。(MDPI)
比起纯软件 AI,具身智能至少多了三个关键要素:
- 物理身体(Body):带有质量、尺寸、关节、摩擦和磨损的实体,而不是抽象的“向量空间”。
- 传感器(Sensing):摄像头、深度相机、IMU、力/力矩传感器、激光雷达、触觉皮肤等,用来把物理世界转成数据流。
- 执行器(Actuation):电机、关节驱动器、轮子、喷气系统等,将决策转换成真实的力和运动。
一个具身智能体(embodied agent)通常被定义为:
具有物理形态,能够通过传感器感知环境,通过执行器对环境施加作用,并通过这种闭环交互产生、学习和体现智能行为的系统。(MDPI)
在本书中,“具身智能”主要指机器人具身智能:我们关注的不是抽象哲学讨论,而是如何让具体机器人——机械臂、移动平台、类人机器人——在现实世界里完成各种任务。
图 1-1(占位):具身智能基本构成示意 建议绘制一个方框图:中间是“智能体”,内部有“感知模块”“决策模块”“控制模块”;左侧箭头为来自环境的传感器输入(图像、力觉等),右侧箭头为输出到环境的动作(关节力矩、末端轨迹等),整体构成一个闭环。
0.1.1.2 核心问题:感知–认知–行动的闭环
具身智能最核心的,不是“用了什么模型”,而是感知–认知–行动(Perception–Cognition–Action)的闭环 如何建立和运行。
- 感知(Perception)
- 将环境中的光、声、力等物理信号,转换成离散的数字观测:图像、点云、关节编码器读数等。
- 还需要做状态估计:例如从多帧图像中估计物体的 3D 姿态、机器人自身的位姿等。
- 认知 / 决策(Cognition / Decision-making)
- 在高层上理解“现在发生了什么”、“我在哪里”、“目标是什么”、“可能会发生什么”。
- 典型会涉及任务理解(来自语言指令)、场景语义理解、路径与动作规划、风险评估等。
- 行动 / 控制(Action / Control)
- 将高层决策转化成低层可执行的控制命令:关节目标位置、速度、力矩,或者末端位姿增量等。
- 同时要满足物理约束:电机极限、加速度上限、避免碰撞和自碰等。
关键在于,这是一个实时在线的闭环过程:机器人一边动作,一边观测新的环境状态,并不断根据反馈调整策略。闭环带来几类核心挑战:
- 实时性:感知、决策、控制的整体时延必须足够小,才能防止“看到的是刚刚的世界,操作的是此刻的机器”。
- 适应性:世界在不断变化,物体位置会变化、光照会变化、地面可能不平整,策略必须能适应分布偏移。
- 安全性:误判和延迟直接对应物理风险——撞到人、打翻物体、损坏设备——安全约束必须成为一等公民,而不是事后补丁。
图 1-2(占位):感知–认知–行动闭环流程图 建议以时间轴画出:感知模块从环境读取信息 → 认知模块产生决策 → 控制模块输出动作 → 环境状态改变 → 再次感知,如同一个循环控制系统。
在纯软件 AI 中,模型错误最多导致“答错题”;在具身智能中,同样的错误会变成“砸到人”。这也是为什么具身智能研究必须同时考虑智能性 与工程可控性 。
0.1.1.3 具身智能的典型实例
为了让概念不那么抽象,这里列举几个日常能见到或正在快速出现的具身智能系统:
- 自主移动机器人
- 仓储物流中的 AGV / AMR(自动引导车 / 自主移动机器人),需要在复杂仓库内自主导航、避障、搬运货物。
- 外卖配送机器人、无人配送车,需要在室外环境中应对行人、车辆和路况变化。
- 家庭服务机器人
- 扫地机器人是最早大规模商业化的具身智能产品之一:通过简单传感器和策略完成地面覆盖、避障和回充。
- 新一代“家庭助手”机器人(如具备机械臂和视觉系统的家务机器人)正在尝试完成叠衣服、收拾桌面、做简单烹饪等任务。(卫报)
- 工业协作机器人(Cobot)
- 在制造业中与人协作的机械臂,需要在安全约束下完成装配、搬运等任务,同时感知人的位置与意图。
- 自动驾驶与无人机
- 自动驾驶车辆通过多种传感器感知道路环境,在速度、转向和制动之间做出实时决策。
- 无人机在城市或灾害场景中执行巡检、救援任务,对风场、障碍物和通信质量都有感知与适应需求。
这些系统的共同点是:
必须把“看懂世界”和“在世界中行动”结合起来。
本书在后续章节会从数学基础、机器学习到 VLA 架构,逐步展开“如何让这些具身系统更聪明、更通用”的技术路径。
0.1.2 从 CV / NLP 到 VLM,再到 VLA 的发展脉络
具身智能的崛起,并不是凭空出现,而是建立在过去十多年 CV(计算机视觉) 、NLP(自然语言处理) 和 ** 多模态学习** 的连续突破之上。
0.1.2.1 CV(计算机视觉)的演进:从特征工程到深度视觉
在深度学习普及之前,视觉主要依赖手工特征(如 SIFT、HOG) + 传统分类器(如 SVM、随机森林)来完成图像识别和检测。
2012 年,AlexNet 在 ImageNet 图像分类竞赛上以巨大优势夺冠,被普遍认为是深度学习在视觉领域的“分水岭事件”:它证明了在大规模数据和 GPU 支持下,多层卷积网络可以远远超越传统方法 。(维基百科)
此后几十个经典视觉任务迅速被深度网络主导:
- 图像分类:ResNet、DenseNet 等结构极大提升了识别精度。
- 目标检测:R-CNN 系列、YOLO 等方法能在自然场景中定位并分类多个物体。
- 图像分割:U-Net、Mask R-CNN 等结构让像素级理解成为现实。
再往后,视觉 Transformer(ViT)等架构开始出现,将 Transformer 引入图像领域,用全局自注意力替代或补充卷积。本书第 3 章会更系统地介绍这些视觉表示,但在这里需要记住一件事:
现代机器人视觉基本都站在深度视觉的肩膀上。
没有这波视觉革命,就没有今天 VLM 和 VLA 的数据基础与网络骨干。
0.1.2.2 NLP(自然语言处理)的演进:从统计到大语言模型
NLP 的发展路径与视觉类似,也经历了从“手工 + 统计”到“神经网络 + 大模型”的演变:
- 统计时代
- 以 n-gram 语言模型、HMM、CRF 和统计机器翻译为代表,主要依靠共现统计和概率图模型。
- 这一阶段的模型难以捕捉长距离依赖,对上下文理解有限。
- 神经网络时代
- 词向量(word2vec、GloVe)将离散单词映射到连续向量空间,为神经网络建模语言准备了输入表示。
- RNN / LSTM / GRU 等序列模型开始用于机器翻译、语言建模和问答。
- Transformer 与大语言模型时代
- 2017 年提出的 Transformer 架构完全基于自注意力机制,抛弃了循环结构,实现了更高并行度和更长程依赖建模能力。(arXiv)
- 随着算力和数据规模的扩张,BERT、GPT 等大规模预训练语言模型出现;GPT-3 等模型以数百亿到千亿参数规模,在多种语言任务上展现出强大的生成与推理能力。(aryaxai.com)
- 2022 年开始,ChatGPT 等对话式系统的出现,让公众第一次直观感受到“语言模型几乎可以扮演一个通用文本助手”。(HatchWorks AI)
对机器人来说,这意味着:
我们第一次拥有能够“理解人类复杂指令、推理意图并生成多步计划”的通用语言模块。
这也为后续“用自然语言给机器人下任务”奠定了基础。
0.1.2.3 VLM(视觉–语言模型)的兴起:跨模态对齐的第一步
有了强大的视觉和语言模型,下一步自然问题是:能不能让模型同时理解图像和文本?
视觉–语言模型(VLM)正是回答这一问题的代表。以 CLIP 为例:(维基百科)
- 使用双编码器结构:一个图像编码器(通常是 CNN/ViT),一个文本编码器(通常是 Transformer)。
- 在海量图文对(image–text pairs)上进行对比学习:
- 让配对的图像–文本向量在特征空间中更接近;
- 让不匹配的图像–文本向量更远。
- 训练完成后,可以实现:
- 图文检索(以文找图、以图找文);
- 零样本分类(用文字描述类别,无需额外标注即可做图像分类);
- 图像内容粗粒度描述等。
其他 VLM(如 Flamingo、PaLI-X、BLIP 系列等)进一步加入生成能力和更复杂的跨模态推理,但共同点是:
VLM 让模型第一次在“屏幕世界”中同时理解图像和文本。
然而 VLM 主要还是“看图说话”或“用文字回答关于图像的问题”,它们不直接输出物理世界中的动作 。在机器人语境中,这种能力更适合作为“理解任务和场景的上层模块”。
图 1-3(占位):从 CV / NLP → VLM → VLA 的演进谱系 建议画一条时间箭头:左边是单模态 CV / NLP,中间是 VLM(图像 + 文本对齐),右边是 VLA(图像 + 文本 + 动作轨迹),以示范模态的逐步扩张。
0.1.2.4 VLA(视觉–语言–动作)的出现:走向物理世界的关键一步
VLM 解决了“看图 + 理解语言”的问题,但还缺少一个关键环节:如何把这种理解转化为机器人动作?
这正是 VLA(Vision–Language–Action)模型的出发点。根据近年的综述与定义,VLA 通常指:(维基百科)
输入:视觉观测(单帧图像或视频) + 语言指令 输出:可以直接在机器人上执行的低层动作(如末端 6-DoF 运动 + 手爪开合),通常以离散化的动作 token 或连续控制向量形式表示。
典型的 VLA 架构一般分两步:
- 视觉–语言编码
- 复用一个预训练的 VLM 或多模态大模型,将图像和指令编码到统一的隐空间中。
- 动作解码
- 在大量“(图像,指令,动作轨迹)”三元组示教数据上进行微调,学习从隐空间表示到具体机器人动作序列的映射。
Google DeepMind 的 RT-2 被广泛认为是确立 VLA 概念的重要工作之一:它在大规模互联网图文预训练基础上,利用真实机器人示教数据微调,使机器人具备“把网页学来的知识迁移到现实操作”的初步能力,例如理解“扔垃圾”“收拾桌面”等语义指令。(arXiv)
此后,包括 Octo、OpenVLA、Gemini Robotics 等在内的一系列 VLA 模型陆续提出,支持更多机器人平台、更复杂任务以及更高频实时控制。(arXiv)
从研究路线看:
- CV / NLP:在各自模态里学会“看得懂 / 听得懂”。
- VLM:在屏幕世界中学会“把看到的”和“说出来的”对齐。
- VLA:在物理世界中学会“在理解之上行动”。
本书第 8 章会从架构角度系统展开 VLA 的设计,这里把它放在历史脉络中,作为一个过渡和总览。
0.1.3 VLA 在通用机器人与通用智能中的角色定位
有了 VLA 这个概念,还需要思考:它在更大版图中的位置是什么? 也就是:VLA 对“通用机器人”和“通用人工智能(AGI)”意味着什么?
0.1.3.1 通用机器人的愿景:从专用工具到通用助手
传统工业机器人通常是“专用工具”:
- 工作空间固定(如生产线某一工位)。
- 任务高度确定(重复装配、焊接、搬运)。
- 编程方式偏底层(示教器逐点示教、手工编程轨迹)。
而所谓“通用机器人”(general-purpose robot)的愿景是:
- 任务多样:能在不同环境下完成清理、搬运、整理、协作等多种任务。
- 指令自然:人类用日常语言描述目标,而不是写程序或给出复杂坐标。
- 适应变化:面对新物体、新布局、新任务组合时,依然能凭借已有知识和少量演示快速适应。(arXiv)
在这样的系统中,VLA 模型被视作机器人的“通用大脑候选”:
- 通过视觉–语言–动作统一建模,从原始摄像头图像、自然语言指令直接生成低层控制命令。
- 同一模型可以在多个机器人平台和任务上共享,只需要对输入输出做适配。
当然,现实系统中 VLA 往往不会“单独统治一切”,而是与传统导航、运动规划、安全控制模块共同工作——这部分将在第 10 章详细展开。
0.1.3.2 VLA 模型的作用:把“人类友好指令”转成“机器人可执行行动”
从系统架构上看,VLA 模型扮演的是**“从语义到控制”的桥梁** 角色:
- 在输入侧
- 语言侧:接收用户的自然语言描述,例如“把桌上的五本书按大小从左到右排好”。
- 视觉侧:接收当前场景的相机图像或视频,理解桌子、书本的位置、姿态、遮挡等信息。
- 在内部表示侧
- 将“文本目标”和“视觉场景”映射到统一隐空间,形成对“当前状态 + 目标”的综合理解。
- 这种表示既包含语义抽象(例如“按大小排序”),也包含几何约束(书本的位置、可抓取区域)。(维基百科)
- 在输出侧
- 生成连续时间下的一系列动作:接近目标书本、调整姿态、闭合手爪、移动到目标位置、松开等。
- 在更高层,可以输出子任务序列或动作原语,由下层控制器进一步实现。
相比传统“人写规则 + 手工调参”的机器人系统,VLA 带来的变化主要有三点:
- 指令接口更自然:用户不用会编程,只需像与人类助手沟通一样给任务。
- 任务泛化能力更强:通过在多任务、多场景数据上的统一训练,模型有机会学习到跨任务共性的技能。(arXiv)
- 与大语言模型深度结合:可以直接利用 LLM 的规划和推理能力,生成步骤,再由 VLA 承接落地为动作(本书第 4、8 章会详细展开这种接口)。
0.1.3.3 里程碑意义:VLA 作为通往 AGI 的实践路径之一
“通用人工智能(AGI)”是一个仍然带有争议的概念,但有一个共识正在形成:
如果一种智能从来不与现实世界交互,只在文本或比特空间中“自言自语”,那么它的能力终究是受限的。
具身智能和 VLA 提供了一条**“从虚拟走向物理”的实践路径**:
- 在物理世界中检验理解与推理
- 语言模型在对话中会出现幻觉,但当它驱动机器人执行任务时,错误会有非常具体的表现(抓错物体、路径碰撞等),这迫使我们设计更严谨的评测和训练范式。(arXiv)
- 让模型在长时间、长尺度上积累经验
- 通用机器人需要在长期部署中持续适应环境变化,这与 AGI 中“终身学习、持续学习”的目标高度一致。
- 新一代 VLA 研究已开始引入世界模型、长序列记忆等模块,尝试让机器人能在内部模拟未来并规划行动。(arXiv)
- 统一多模态、多机器人、多任务的基础模型
- 最新的 VLA 系统(如 Gemini Robotics、Helix 等)强调一个模型可以驱动多种机器人形态(机械臂、双臂、类人等),并执行多种任务,向“具身基础模型”方向演进。(Reuters)
从这个角度看,VLA 的意义远不只是“让机器人更好用”:
- 对机器人学,它是通向“通用机器人助手”的关键一环;
- 对人工智能整体,它是把大模型能力从虚拟世界映射到物理世界的桥梁,为讨论“真正有用的 AGI”提供了具体实验平台。
图 1-4(占位):VLA 在“AGI 版图”中的位置示意图 建议画一个同心圆或多层结构:最内层为“感知–控制”,外层为“多模态大模型”,再外一层为“具身基础模型 / VLA”,最外层为“AGI 应用场景”,展示 VLA 处于“多模态智能”和“物理世界”交汇处。
小结与后续衔接
在本节中,我们完成了三件事:
- 给出了具身智能 的工作定义,并强调了感知–认知–行动闭环和安全约束。
- 从历史脉络梳理了从 CV / NLP → VLM → VLA 的技术演进。
- 讨论了 VLA 在通用机器人和 AGI 中的角色,把它放在更大的技术版图中定位。