Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

0.3.1 基础知识阶段(数学 / ML / 机器人)

这一阶段的目标只有一句话:把“看不懂论文公式、写不出代码、画不清机器人坐标系”的尴尬全部解决掉。 后面所有 CV / RL / VLA 的内容,都会默认你已经具备本阶段的能力。


0.3.1.1 时间分配

如果以两年制硕士为例,可以把基础阶段粗略放在入学后前 6–9 个月 。参考国际上多数机器人 / 计算机视觉硕士项目的课程安排,通常第一学年集中在数学、机器学习和机器人学基础,第二学年才是专题课和项目研究。(ri.cmu.edu)

建议按“周”为单位来规划时间,而不是“有空再看”:

  • 每周 25–30 小时:正式学习时间
    • 数学(线代 + 概率 + 优化):10–12 小时
    • 机器学习基础:8–10 小时
    • 机器人学导论 / 运动学:5–8 小时
  • 每周 5–10 小时:练习与项目
    • 课程作业、代码实现、小实验、读几页简单教材或讲义

如果你是下面几种背景,可以略作调整:

  • CS/EE 背景较强、数学较好:适当压缩数学时间,增加机器学习与机器人学的动手机会(多写代码、多跑实验)。
  • 机械 / 控制背景较强、编程较弱:保留数学时间,把 ML 部分多做实现练习(PyTorch / NumPy),哪怕一开始是简单的线性回归、逻辑回归。
  • 跨专业转入(数学、物理等):前 2–3 个月集中补编程和基本 ML,然后再进入正常节奏。

[图片占位]:一张“基础阶段时间分配”饼图或堆叠条形图,区分数学 / ML / 机器人 / 项目练习所占比例。

总的原则是:不要指望“暑假突击”,而是保证每周可持续的学习节奏 。后面 VLA 阶段的复杂模型训练,需要你在这一阶段养成稳定的“长期耐力”。


0.3.1.2 学习内容

本阶段的学习内容不在于“多”,而在于**“打牢关键概念 + 能做典型题 + 能写基本代码”** 。本书第 1 章、2 章、6 章会分别系统展开数学、深度学习和机器人学的细节,这里只从“学习目标”的角度做整体规划。

可以把内容分成三条主线:

  1. 数学主线:看懂公式、会算、懂含义
    • 线性代数:向量 / 矩阵运算、特征值分解、SVD、PCA 等。你至少要能理解“为什么要做对角化 / 降维”这类问题,而不是机械套公式。
    • 概率与统计:随机变量、期望 / 方差、常见分布、贝叶斯公式、最大似然 / 最大后验的直觉。
    • 优化:梯度、梯度下降、学习率、局部极值与鞍点、基本约束优化的思想。 这些内容在本书第 1 章会有详细展开,此处的重点是:跟着一套系统教材 + 课后习题 + 配套课程,扎实做完一遍,而不是“看过 PPT”。
  2. 机器学习主线:从“名词认识”到“能自己写一个小模型”
    • 监督学习:回归 / 分类的基本设定、损失函数、训练 / 验证 / 测试划分。
    • 模型与泛化:过拟合、欠拟合、正则化、交叉验证、常见评价指标(准确率、精确率、召回率、AUC 等)。
    • 简单模型实践:线性回归、逻辑回归、支持向量机、决策树 / 随机森林等。 这一部分的要求是:至少用 Python + 一个主流框架(如 PyTorch)完整实现过 2–3 个典型任务,例如房价预测、简单图像分类等。(领英)
  3. 机器人学主线:建立“坐标系 + 运动学 + 基本控制”的直观感
    • 坐标系与齐次变换:理解机器人不同连杆 / 末端的相对位置与姿态如何通过 4×4 矩阵描述。
    • 正 / 逆运动学:已知关节角求末端位姿、给定位姿求关节角的基本问题;至少在 2–3 自由度机械臂上能手算 / 编程实现。
    • 简单控制思想:PID 控制、轨迹跟踪的基本概念,为后面 RL / IL 接入机器人打基础。 很多国际机器人硕士项目都会在第一学年结束前要求学生掌握这些内容,并通过实验课或仿真实验进行验证。(research.gatech.edu)

在学习方式上,可以采用“三明治结构”:

理论 → 习题 → 代码 → 再回到理论(带着问题回看)

例如:学完线性回归的公式推导后,立刻在 Python 中实现最小二乘拟合,再对比手推和框架自动求导的差异。


0.3.1.3 达到水平

当你完成基础阶段时,应当具备一种“读论文不再完全晕菜、知道该查哪本书”的安全感 。更具体地,可以用以下几个“自测指标”判断自己是否过关:

  1. 数学层面
    • 能够独立推导线性回归的闭式解、逻辑回归的梯度;
    • 遇到论文中的常见符号(如 \( E[\cdot] \)、\( p(x|\theta) \)、\( \nabla_\theta \) 等)不会感到陌生;
    • 能够解释“为什么深度网络训练需要随机梯度下降、为什么学习率太大会发散”等直观问题。
  2. 机器学习层面
    • 能用一个你熟悉的框架(如 PyTorch)从零开始写出:数据读取 → 模型定义 → 损失函数 → 训练循环 → 指标计算 的完整脚本;
    • 能够根据数据集和任务选择合理的损失函数和评价指标,并对过拟合有基本感知;
    • 能读懂经典 ML 课程(如 CS229)作业中的大部分题目和解答思路。(studocu.vn)
  3. 机器人层面
    • 给定一台简单机械臂的 DH 参数,能用程序计算任意关节角下的末端位姿;
    • 能够理解实验室常见机器人软件栈的大致结构(如“上层规划 → 下层控制”),看懂常用坐标系示意图;
    • 至少在仿真环境中(如 Gazebo / MuJoCo)完成过一次简单“点到点”轨迹规划与执行。(GitHub)

如果你已经达到了上述水平,可以认为:进入 CV / NLP / RL / IL 这类“领域知识阶段”是安全的,不会在基础问题上频繁绊倒。


0.3.2 领域知识阶段(CV / NLP / RL / IL)

这一阶段相当于把“通用 AI 基础”转化为“具身智能相关的关键领域能力”,为后面 VLA 奠定四大支柱:视觉、语言、决策(RL)、模仿学习(IL) 。国际上很多机器人和计算机视觉硕士项目,也会在核心课之上,提供视觉、机器学习、机器人控制、强化学习等模块化选修,形成类似结构。(ri.cmu.edu)


0.3.2.1 时间分配

建议将领域知识阶段安排在研究生中期(大致 6–18 个月),与课程选修和早期科研项目交织进行。

一个典型的时间结构可以是:

  • 每学期聚焦 1–2 个主领域 + 1 个辅领域
    • 例如:本学期主攻 CV + RL,辅修 NLP;下学期主攻 RL + IL,巩固 CV。
  • 每周时间安排(参考)
    • 正式课程(听课、作业):15–20 小时
    • 小项目 / 课程 Project:8–10 小时
    • 论文 / 教材阅读:5–8 小时

这里有一个重要的经验:不要试图一学期同时“精通”四个领域。 更现实的做法是:保持宽度,但每个时段有清晰的“主线”。

[图片占位]:一张“学期级时间轴”示意图,横轴为学期,纵向标注不同领域的重点程度(例如高亮某学期的 CV + RL),展示“轮换主攻”的策略。


0.3.2.2 理论结合实践

仅仅“上完课 + 做完作业”是不够的。对于 CV / NLP / RL / IL,每个领域至少应该做到:理论上听得懂、代码里写得出、实验里调得动

可以按领域设计“最小实践单元”:

  1. CV:从图片到语义理解
    • 理论:卷积、视觉 Transformer、分类 / 检测 / 分割的基本框架。
    • 实践项目示例:
      • 在 ImageNet 子集或 CIFAR 上训练一个简单分类器;
      • 在 COCO 子集上跑通一个开源检测模型的训练与推理。(University of Surrey)
  2. NLP:从 token 到语义表示
    • 理论:语言模型、子词分词、预训练 + 微调范式。
    • 实践项目示例:
      • 使用预训练 Transformer 做一个文本分类 / 问答任务;
      • 通过指令微调或简单 Prompt 设计,体验 LLM 在下游任务中的适应能力。
  3. RL:从 MDP 到可运行的策略
    • 理论:MDP、价值函数、策略梯度、Actor–Critic 等。
    • 实践项目示例:
      • 在经典离散环境(如 CartPole)上实现 DQN;
      • 在简单连续控制环境(如倒立摆 / 小车)上实现 PPO 或 SAC。(GitHub)
  4. IL:从示范到策略
    • 理论:行为克隆、分布偏移、DAgger、基本逆强化学习思想。
    • 实践项目示例:
      • 在仿真环境中用示范轨迹训练一个行为克隆策略;
      • 分析“策略偏离示范后崩掉”的现象,并尝试通过数据增强 / DAgger 方式改进。

这些项目的规模不必很大,但要严格“从数据到结果”走完一遍完整 pipeline:数据准备 → 模型实现 → 训练调参 → 可视化结果 → 简单总结。 这样你在后面做 VLA 时,才能对每个模块的行为心中有数,而不是把所有问题都怪在“模型太大 / 数据太少”上。


0.3.2.3 知识融会

具身智能的核心不在于“分别学会 CV / NLP / RL / IL”,而在于把这些领域联通起来,形成对“感知–语言–决策–动作”的整体理解。近年来关于 VLA 的综述工作,也强调了这一点:单独做视觉或语言已经不够,关键在于把多模态、决策和物理交互整合成统一学习系统。(arXiv)

在领域知识阶段,可以开始有意识地做一些“跨界思考”:

  • 视觉 + RL:思考从像素直接输入 RL 策略,与“先做感知再做决策”的差别;
  • 语言 + RL / IL:对比“固定任务奖励”与“语言指令描述任务”的两种方式;
  • CV + NLP:尝试实现一个简单的图文匹配 / 图文检索模型,体会跨模态对齐的难点。

建议定期做一个“小型综合反思”:

每 1–2 个月挑一个周末,画一张“知识网络图”: 把学过的主要概念(视觉特征、语言 embedding、价值函数、策略、示范轨迹等)画成节点,用线连接它们之间的关系,并标出你尚未理解清楚的部分。

[图片占位]:一张“CV / NLP / RL / IL 知识网络”手绘示意图,展示不同概念之间的箭头关系,用于帮助读者建立整体心智模型。

当你能流畅回答诸如“为什么现代机器人策略越来越像大型多模态模型,而不仅仅是传统规划器?”这类问题时,就说明你已经从“分科学生”开始转向“具身智能研究者”的思维方式。


0.3.3 VLA 专题与项目实践阶段

完成前两个阶段后,你已经具备了“通用 AI + 关键子领域”的基础。接下来,重点从“学习课程”转向“围绕 VLA 的系统性研究与工程实践”。

最近几年,Vision-Language-Action 模型已经成为具身智能研究的核心方向之一,相关综述将其视为“指令驱动机器人策略”的重要实现路径。(arXiv)


0.3.3.1 时间分配

时间上,这一阶段通常覆盖研究生后期(大约最后 6–12 个月),也是毕业论文 / 核心科研产出的集中期。

相比前两个阶段,这里需要更加明确“研究型时间”的结构,而不是纯课程节奏。可以参考如下每周分配:

  • 论文与调研:6–8 小时
    • 聚焦 VLA、具身基础模型、相关数据集与 benchmark;
  • 代码与系统实现:15–20 小时
    • 搭建 / 修改模型、编写训练与评估脚本;
  • 实验与数据处理:10–12 小时
    • 数据清洗、训练/推理、日志分析、可视化;
  • 思考与写作:4–6 小时
    • 记录实验日志、撰写备忘录、构思论文结构。

这意味着:课程不再是主角,而是为你的研究提供稳定背景;真正拉开差距的是“你在项目和论文上花了多少高质量时间”。


0.3.3.2 项目实践

在 VLA 阶段,建议至少完成一个“从零搭到能跑”的中等规模项目。为了避免一开始就目标过大、难以落地,可以采用“由浅入深的阶梯式设计”。

可以参考以下三种层级:

  1. Level 1:复现 + 小改动
    • 目标:选取一篇 VLA 论文或开源项目(例如基于 CLIP + 行为克隆的策略),在开源数据集上完整复现实验流程,并做少量改动。
    • 工作内容:
      • 理解并搭建模型结构(视觉编码器 + 语言编码器 + 动作解码器);
      • 跑通训练脚本、得到与原文接近的结果;
      • 尝试修改某一个模块(如换 backbone、换动作离散化方式),观察性能变化。(学OpenCV)
  2. Level 2:自建数据 + 仿真实验
    • 目标:在 MuJoCo / Isaac Gym / RLBench 等仿真环境中,采集自己的多模态示教数据(图像 + 语言指令 + 动作),训练一个简单的 VLA 策略。(GitHub)
    • 工作内容:
      • 搭建简单场景(如“按颜色分类搬运方块”);
      • 通过遥操作 / 脚本生成示范轨迹,并设计相应语言指令模板;
      • 训练 VLA 模型,在环境中执行并评估成功率。
  3. Level 3:从仿真走向真实机器人(如实验室机械臂)
    • 目标:将 Level 2 中在仿真训练的策略,迁移到真实平台上,哪怕只完成一个简化任务(例如“桌面抓取 + 放置”)。
    • 工作内容:
      • 适配传感器与控制接口(如 ROS);
      • 处理 sim-to-real 差距:图像差异、延迟、噪声等;
      • 引入安全约束,确保真实实验中不会对人和设备造成损害。

[图片占位]:一张“VLA 项目阶梯”示意图,展示从“论文复现”到“仿真实验”再到“真实机器人部署”的三层台阶。

在选择项目时,可以结合导师课题和公开数据资源,避免完全闭门造车。近年来一些 VLA 综述与开源列表,会系统整理相关数据集、任务和模型,对你设计项目非常有参考价值。(GitHub)


0.3.3.3 迭代提高

VLA 项目难点往往不在“能不能跑起来”,而在于如何在一个基线之上持续提升性能,并提炼出有研究价值的结论 。这需要你有意识地进行“科学化迭代”,而不是凭感觉改代码。

可以参考如下迭代循环:

  1. 建立基线
    • 复现已有方法,得到稳定的基线性能;
    • 确保实验可重复(固定随机种子、记录配置和数据版本)。
  2. 提出假设
    • 例如:“增加历史动作上下文会提高策略稳定性”、“更强的语言编码器能够提升多任务泛化”等;
    • 假设应具体到可实验验证的设计。
  3. 设计对照实验
    • 只改变一个关键因素,保持其他条件不变;
    • 使用统一指标(成功率、路径长度等)进行比较,必要时统计多次试验均值和方差。
  4. 分析与归纳
    • 不仅看“是否提升”,还要分析“在哪些任务、哪些场景下提升显著”;
    • 将失败实验也记录下来,反思假设为何不成立。
  5. 整理为论文 / 报告
    • 在本书第 11 章将详细讨论如何设计实验和撰写论文;
    • 在这里,你只需记住:项目必须沉淀为“可交流的知识”,而不仅是“一个 Git 仓库”。

多篇 VLA 工作的经验表明,真正有影响力的贡献往往来自于:扎实的工程实现 + 清晰的实验设计 + 对失败现象的深入分析,而不是堆砌复杂模型结构。(Proceedings of Machine Learning Research)


0.3.4 如何在课程、项目与论文之间平衡时间

具身智能 / VLA 方向的学习,很容易陷入两种极端: 要么“疯狂修课但不做项目”,要么“沉迷写代码、不顾课程基础”。本节的目标,是帮助你形成一个**“长期可持续”的时间平衡策略** 。


0.3.4.1 课程 vs 科研

可以把课程与科研的关系理解为:

  • 课程 = 安全下限(floor):保证你在数学、ML、机器人等方面不会出现致命短板;
  • 科研 / 项目 = 上限(ceiling):决定你能走多远,是否具备独立研究能力。

从多所机器人 / 计算机视觉硕士项目的培养方案看,典型做法是:前期偏重课程,后期偏重项目和论文,一般会要求核心课程 + Capstone / Thesis 结合。(ri.cmu.edu)

对个人而言,可以遵循以下原则:

  1. 课程不过度“内卷” 保证核心课程成绩过关、概念掌握扎实即可,不必在每次作业上投入 200% 精力追求满分。把多出来的精力投入到项目和论文上,长期收益更大。
  2. 尽早参与科研 / 项目 不必等所有课上完才开始做研究。实际更有效的方式是: 在基础课程刚刚达到“能听懂 70%”时,就开始参与一个小项目,一边补课一边实践。
  3. 用课程作业为科研“打前站” 尽量把课程 Project 设计成与你未来科研方向相关的小问题,例如:
    • CV 课程的项目做一个小型视觉编码实验,为后续视觉模块打基础;
    • RL 课程的项目尝试一个简化版本的机器人任务。

0.3.4.2 项目管理

具身智能项目往往战线长、依赖多(硬件、仿真、数据、模型都要照顾),如果没有明确的管理方式,很容易陷入“忙了很久却没有实质结果”的困境。

建议采用轻量级的项目管理策略

  1. 明确里程碑(Milestone)
    • 按 4–6 周为周期,划分几个关键里程碑: 例如“跑通仿真环境”、“完成数据采集脚本”、“完成第一版模型训练”、“完成 ablation 实验”等。
    • 每个里程碑需要有可验证的“完成标准”,而不是泛泛的“差不多可以”。
  2. 任务拆分与优先级
    • 把每个里程碑拆分为若干可在 1–2 天内完成的小任务;
    • 按照“对整体进度影响最大”排序优先级,先解决阻塞问题,如环境搭建 / 数据格式统一。
  3. 时间块管理
    • 尽量为深度工作预留连续 2–3 小时的大块时间,用于写代码、调试或阅读难论文;
    • 把碎片时间用于检查实验结果、整理笔记、写 TODO 列表,而不是开启新工作。
  4. 风险预估与范围控制
    • 对每个里程碑预估最坏情况,如果在某个时间点仍未完成,需要果断缩小范围: 例如减少任务种类、简化模型规模,以确保在可控时间内有完整结果,而不是“追求完美但什么都没交付”。

[图片占位]:一张简单的甘特图示例,展示“课程、项目、论文写作”在时间轴上的并行与交叉分布。


0.3.4.3 论文阅读与写作

在具身智能 / VLA 方向,要想从“熟练工程师”走向“独立研究者”,必须建立持续阅读论文 + 持续写作整理 的习惯。这不是临近毕业才开始的任务,而应该贯穿整个学习路径。

可以考虑以下实践方式:

  1. 固定“最低阅读配额”
    • 即便课程和项目再忙,也尽量保证: 每周至少读 1–2 篇与你课题直接相关的论文,并且写下半页到一页的阅读笔记。
    • 对于难度较高的综述或长文,可以分多次读完。
  2. 分层次阅读
    • 第一遍:只看题目、摘要、引言和结论,弄清楚“作者在解决什么问题,用什么方法,大概效果如何”;
    • 第二遍:细读方法部分,尝试复现关键公式或算法;
    • 第三遍:分析实验设计、结果与 ablation,思考你能否提出改进或新的问题。
  3. 在项目早期就开始写作
    • 不要等实验全部完成再写论文。更推荐做法是:
      • 项目开始时就打开一个文档,按“问题背景 – 相关工作 – 方法设想 – 预期实验”的结构先写一个粗略框架;
      • 随着实验推进逐步往里填内容;
      • 失败实验也要记录,为后续讨论和负面结果提供素材。
  4. 建立个人知识库
    • 使用笔记软件(如 Obsidian、Notion)或简单 Markdown 文件,建立“文献卡片”——每篇论文用一页记录关键点、启发和疑问;
    • 对 VLA / 具身智能这类快速发展的领域,个人知识库能帮助你在海量论文中保持清晰结构,而不是每次都从零开始搜索。近期关于 VLA 的综述也指出,系统性整理文献对于掌握这个高速演化的领域尤为重要。(arXiv)

本节从时间与阶段的角度,构建了从基础知识到领域能力,再到 VLA 专题研究的整体路径。下一章开始,我们将正式进入数学与机器学习基础的具体内容,让“第一个阶段”从规划走向落实。