1.5 推荐阅读与资源

本章从零开始勾勒了线性代数、概率统计、优化与基础机器学习的“最小必需集合”。但要在具身智能与 VLA 方向真正做到能读论文、能推公式、能写代码、能做实验，仅靠本书的篇幅仍然略显紧凑。

因此，这里推荐三类强相关的配套资源：

一本偏统计机器学习理论的中文书；
一条线性代数 / 数值线性代数的进阶路径；
一门成体系的机器学习公开课。

它们与本书的关系大致可以理解为：

本书：给出结构化主线与机器人应用视角推荐资源：在“理论深度”和“练习密度”上进行补强

【图片占位：学习资源结构图——中间是“本书”，周围连出三条箭头： ① 指向《统计学习方法》（补充 1.2/1.4 的统计学习理论）； ② 指向《Matrix Computations》/《Linear Algebra and Learning from Data》（补充 1.1/1.3 的线性代数与数值方法）； ③ 指向 Stanford CS229（将本书第 1 章内容串联成一门完整 ML 课程）。】

下面分别说明每个资源适合在什么时候读、怎么读、和本书哪个部分形成互补 。

1.5.1 《统计学习方法》

基本信息与定位

《统计学习方法》（李航，清华大学出版社）是国内机器学习领域极为常用的一本教材，目前已有第二版，被许多高校作为“机器学习原理”课程主教材使用。(东南大学信息科学与工程学院)

它的特点可以概括为：

理论导向：以统计学习理论为主线，强调“概率模型 + 损失函数 + 经验风险 / 结构风险最小化”这一统一框架；
覆盖经典算法：感知机、k 近邻、朴素贝叶斯、决策树、逻辑回归 / 最大熵、支持向量机、提升方法、EM、HMM、CRF 等；
公式推导完整：绝大多数算法都从“问题设定 → 目标函数 → 优化方法 → 性质”系统展开，非常适合练习看懂和推导公式。

这些内容与本书第 1.2 节（概率与统计基础） 、1.3 节（优化） 、1.4 节（机器学习基础） 互相呼应：本书给的是“概念地图”和机器人视角，《统计学习方法》给的是“严格数学版的细节”。

建议的阅读顺序与对应关系

如果你已经读完本书第 1 章，建议按下面顺序局部精读，而不是从头到尾机械通读：

“统计学习方法概论”章节
- 对应本书 1.4 整体框架：监督学习、经验风险最小化、结构风险最小化、泛化能力等概念。
- 阅读目标：把“机器学习 = 拟合一个函数”的朴素印象，升级为“机器学习 = 在假设空间中寻找经验风险 / 结构风险最小的函数”的统计学习观。
线性模型与判别模型相关章节（如感知机、逻辑回归、最大熵模型）
- 与本书 1.4.1 回归与分类 、1.4.2 过拟合与偏差–方差 、以及第 2 章的神经网络基础直接对应。
- 阅读时可以刻意关注：
  - 损失函数是如何从概率模型中导出的（例如对数似然 → 对数损失 / 交叉熵）；
  - 正则化项如何自然出现（先验 + MAP → L1/L2 正则）。
- 这些内容读懂之后，再回看本书 1.3、1.4，会发现损失与正则化其实一直是“同一个故事”的不同侧面。
支持向量机与核方法章节
- 与本书 1.4.4 核方法与高维特征空间直觉 紧密对应。
- 建议阅读方式：
  - 先看“几何直觉”：间隔最大化、支持向量；
  - 再看“对偶问题与核技巧”：如何把高维特征空间的点积“藏进”核函数中。
- 这一部分对于理解后续 VLA 模型中“高维表示空间”的直觉非常有帮助。
EM、HMM、CRF 等章节
- 与本书后续关于概率图模型、序列建模（特别是机器人任务中的状态估计与时序决策）遥相呼应。
- 这些方法在现代深度模型中常以“隐含结构”形式出现，理解它们会让你在阅读更复杂的模型（如带隐变量的世界模型）时不至于“只看结论”。

如何利用本书 +《统计学习方法》联合学习

一个比较实用的学习节奏是：

先看本书 某一小节，获取“概念树”和“在机器人场景下为何需要它”的直觉；
再在《统计学习方法》中对照阅读 对应算法章节，专注于：
- 公式每一项的含义；
- 优化目标与梯度 / 对偶问题的关系；
- 与泛化误差、偏差–方差的联系；
最后回到本书的习题或后续章节，在仿真或真实机器人项目中实现 / 调用这些算法。

如此循环几轮，你会逐渐形成：看到一个新模型 → 能够迅速抽象为“统计学习方法”框架 的能力，这对后续阅读具身智能 / VLA 论文非常关键。

1.5.2 《Matrix Computations》或《Linear Algebra and Learning from Data》

本书第 1.1 节对线性代数只做了“最必要”的回顾：向量空间、特征值与 SVD 等。在具身智能和 VLA 研究中，线性代数还有两个常被忽视但极其重要的方面：

数值计算层面： 矩阵算法在计算机中究竟是如何实现的、它们为什么稳定或不稳定；
与机器学习的结合层面： 深度学习、压缩感知、低秩近似等现代工具，本质上都是线性代数思想的延伸。

下面这两本书各自从这两个方向对本书做补强。

（1）《Matrix Computations》——数值线性代数的“算法圣经”

《Matrix Computations》（Gene H. Golub & Charles F. Van Loan）是数值线性代数领域的经典教材，对线性方程组、最小二乘问题和特征值问题的数值算法做了系统而深入的总结，被广泛视为计算科学和工程领域的必备参考书。(约翰霍普金斯大学出版社)

适合解决的问题

当你开始关心“矩阵分解在计算机里到底是怎么算的”；
当你需要理解数值稳定性、条件数、舍入误差对算法的影响；
当你在仿真或机器人控制中遇到数值发散、线性系统求解不稳定时。

与本书的衔接

与本书 1.1 线性代数基础：本书强调“概念与几何直觉”，《Matrix Computations》强调“算法与误差分析”；例如：LU 分解、QR 分解、SVD，在这里会从算法步骤、复杂度、稳定性等角度彻底展开。
与本书 1.3 优化基础 、以及后面涉及最小二乘、最小范数解、低秩近似 的内容一一对应：
- 如何在数值上稳健地解最小二乘问题；
- 如何实现高效的迭代方法解决大规模线性系统。

阅读建议

由于本书面向具身智能方向，不要求你把整本《Matrix Computations》精读完，可以采取“按需查阅 + 局部精读”的策略，例如：

重点关注线性方程组、最小二乘与 QR / SVD 相关章节；
遇到数值问题时，将其当作“字典”查表，看某种矩阵问题推荐使用哪类算法。

（2）《Linear Algebra and Learning from Data》——线代与现代机器学习的桥梁

Gilbert Strang 的《Linear Algebra and Learning from Data》将传统线性代数与现代数据科学、深度学习联系起来，整本书围绕“如何用线性代数视角理解数据与学习算法”展开。(麻省理工学院数学)

从目录可以看到，它一方面涵盖了经典内容（四个基本子空间、SVD、矩阵分解等），另一方面专门讨论了大矩阵计算、压缩感知以及深度学习等主题。(麻省理工学院数学)

适合解决的问题

希望用统一的线性代数语言理解：线性回归、主成分分析、正则化、低秩近似、神经网络中的矩阵运算等；
希望知道“为什么线性代数是机器学习的骨架”，而不仅仅把它当作“会算题目”的课程。

与本书的衔接

与本书 1.1 线性代数基础 、1.4 机器学习基础 直接互补：例如，本书提到的 PCA、SVD 在 Strang 的书中会配合更多几何图示和实例；
与本书 2 章深度学习基础 、以及后面 VLA 模型中“表示空间、低秩近似、注意力的矩阵形式”等内容理念一致：你会更容易把深度模型的运算看成是矩阵 / 张量操作的堆叠，而不是一堆“黑盒”。

推荐的阅读顺序

如果你计划系统阅读，可参考如下顺序：

先结合本书 1.1，阅读该书的线性代数基础部分（如 Ax 的几种理解、四个基本子空间、LU 分解等）；(麻省理工学院数学)
再在本书 1.4 / ** 2 章** 学习相关算法之后，回头看书中关于 PCA、压缩感知、深度学习的章节，强化对“矩阵视角下的机器学习”的理解；(亚马逊)
对数值问题有兴趣时，再从这里自然过渡到《Matrix Computations》的算法细节。

两本书如何取舍？

若你目前主要目标是打通“线代–机器学习”的理解链路，更推荐优先读 Strang 的《Linear Algebra and Learning from Data》；
若你已经开始写数值算法 / 控制算法代码，或者在仿真中频繁遇到数值问题，则可以逐步引入《Matrix Computations》作为工具书。

1.5.3 Stanford CS229 机器学习公开课

Stanford CS229 是斯坦福大学经典的研究生级机器学习课程，由 Andrew Ng 等人主讲，提供了系统的课程视频、讲义和课后作业，对监督学习、无监督学习、核方法、神经网络以及强化学习等内容进行较为完整的讲解。(cs229.stanford.edu)

从官方课程描述可以看到，它的核心内容与本书第 1 章高度重合：线性回归、逻辑回归、神经网络、SVM、聚类、降维、核方法、强化学习等，是本书所述基础知识的一条“课程化实现”。(cs229.stanford.edu)

为什么推荐 CS229

系统性强 本书在第 1 章以“知识点”为单位组织；CS229 则以“课程节次”为单位，把这些知识点串成一条完整的学习路径，有利于你建立“整门课”的时间线和节奏感。
配套资料丰富
- 公开的讲义（lecture notes）对很多算法进行了严格推导，是极好的公式练习素材；(cs229.stanford.edu)
- 视频课程可以帮助你在“推导细节看不懂”时，通过教师的口头解释获取直觉。(YouTube)
要求的数学背景与本书契合 CS229 被普遍认为是一门“偏理论”的课程，需要一定的线性代数、概率论和多元微积分基础。(csdiy.wiki) 这恰好与本书第 1 章的定位一致：只要你按照本书 1.1–1.3 的要求打好基础，就已经具备了啃 CS229 的数学条件。

如何将 CS229 与本书结合

可以将 CS229 看作是本书第 1 章的“扩展实验课”，建议采用如下配合方式：

第一轮：本书为主，CS229 为辅 先按照本书章节顺序学习：
- 在阅读完本书 1.4 机器学习基础 后，选择性观看 CS229 中关于线性 / 逻辑回归、SVM、神经网络、偏差–方差与正则化的讲座；(cs229.stanford.edu)
- 重点在于听懂问题设定与公式推导思路，而不必强求每一处证明都完全掌握。
第二轮：CS229 为主，本书为“导航 + 补充” 当你开始正式做机器学习 / 具身智能的课程项目或科研时，可以完整跟一遍 CS229：
- 以课程讲义和作业为主线；
- 本书第 1 章作为“索引”和“简化注解”：遇到不熟悉的数学 / 概念，可快速翻回本书对应小节回顾直觉与定义；
- 在强化学习与自适应控制部分，与本书第 5 章内容形成前后呼应。(cs229.stanford.edu)
第三轮：带着机器人问题回头看 当你进入 VLA、模仿学习或机器人控制的研究阶段，再回看 CS229 的相关章节（尤其是核方法、正则化、偏差–方差、EM、强化学习等），会更清楚这些“基础课上的理论”在机器人任务中分别扮演什么角色。

小结：本书与三类资源在学习路径中的位置

第 0~1 章 + 本书整体：提供具身智能 / VLA 视角下的数学与机器学习“骨架”；
《统计学习方法》：把 1.2 / 1.4 中的统计学习理论“加厚”，帮助你真正掌握公式推导和理论框架；
《Matrix Computations》 & 《Linear Algebra and Learning from Data》：从数值算法与线性代数–数据科学的结合两个方向，补全 1.1 / 1.3 的深度；
CS229：把这些知识组织成一门逻辑严密的课程，通过作业和项目推动你真正“会用”。

在后续章节，我们会逐步进入深度学习、视觉、语言、强化学习以及 VLA 模型的细节；当你在后面遇到任何“数学或机器学习基础不够扎实”的时刻，都可以回到本书第 1 章，并借助本节列出的资源向下钻研一层，使你的理论根基足以支撑具身智能这个长期而复杂的研究方向。

Keyboard shortcuts

Robotic Embodied Intelligence - From Zero to Hero