Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

1.2.1 随机变量、分布、期望与方差

在具身智能里,机器人看到的是一串“带噪声”的观测:距离可能测得偏大一点、偏小一点;每次抓取也不一定都成功。要想在不确定世界里做决策,首先要会用“随机变量”和“分布”来刻画这种不确定性。


1.2.1.1 随机变量的概念

随机试验与样本空间

  • 随机试验:结果在单次发生前不确定,但所有可能结果是已知的过程,例如:
    • 抛硬币(正面 / 反面);
    • 机器人执行抓取动作(成功 / 失败);
    • 激光雷达测距(读数会因噪声略有变化)。
  • 样本空间:所有可能结果构成的集合,记为 \(\Omega\)。

随机变量(Random Variable) 随机变量本质上是一个函数:把样本空间中的每个结果映射到一个实数。

  • 例如:抛硬币,定义

    \[ X(\text{正面}) = 1,\quad X(\text{反面}) = 0 \]

    这样“抛硬币”就被变成了“取 0 或 1 的随机变量”。

  • 对机器人而言,可以令

    • \(X\):某次抓取是否成功(成功 = 1,失败 = 0);
    • \(Y\):某次测距的读数(单位:米)。

离散随机变量与连续随机变量

  • 离散型:只取有限或可数多个值,例如 \(X\in{0,1}\)、骰子点数 \({1,2,3,4,5,6}\)。
  • 连续型:在一个区间上取任意实数,例如测得距离 \(Y\in[0,5]\) 米。

概率分布

  • 对离散随机变量,用概率质量函数(pmf)描述:

    \[ p_X(x) = \mathbb{P}(X = x) \]

  • 对连续随机变量,用概率密度函数(pdf)描述:

    \[ f_X(x) \ge 0,\quad \int_{-\infty}^{+\infty} f_X(x),\mathrm{d}x = 1 \]

  • 相应的分布函数(CDF)为

    \[ F_X(x) = \mathbb{P}(X \le x) \]

这些定义构成了概率论和统计学习的最基础语言。(bookdown.org)

图片占位: 【图 1-2-1】一张示意图:上半部分为离散随机变量,在数轴上几个点画柱状条表示各自概率;下半部分为连续随机变量,画一条平滑曲线表示概率密度。


1.2.1.2 数学期望与方差

数学期望(Expectation) 直观上,期望就是“长期平均值”或“分布的重心”:

  • 离散情形:

    \[ \mathbb{E}[X] = \sum_x x, p_X(x) \]

  • 连续情形:

    \[ \mathbb{E}[X] = \int_{-\infty}^{+\infty} x, f_X(x),\mathrm{d}x \]

例如一个公平骰子 \(X\in{1,2,3,4,5,6}\),每个点数概率 \(1/6\):

\[ \mathbb{E}[X] = \frac{1+2+3+4+5+6}{6} = 3.5 \]

在机器人中的直觉

  • 激光雷达多次测量同一障碍物距离,其平均值接近真实距离。
  • 期望告诉你:如果你在同样条件下重复实验很多次,平均结果会到哪里。(bookdown.org)

方差(Variance) 期望只告诉我们“平均在哪”,但不知道“抖动有多大”。方差刻画的是随机变量偏离其期望的平均平方程度

\[ \mathrm{Var}(X) = \mathbb{E}\big[(X - \mathbb{E}[X])^2\big] \]

常用的等价形式是:

\[ \mathrm{Var}(X) = \mathbb{E}[X^2] - \big(\mathbb{E}[X]\big)^2 \]

示例:公平骰子的方差

\[ \mathrm{Var}(X) = \mathbb{E}[X^2] - \big(\mathbb{E}[X]\big)^2 \]

\[ \mathbb{E}[X^2] = \frac{1^2+2^2+3^2+4^2+5^2+6^2}{6} = \frac{91}{6} \]

\[ \mathrm{Var}(X) = \frac{91}{6} - 3.5^2 = \frac{91}{6} - 12.25 = \frac{35}{12} \]

在机器人场景中:

  • 如果测距结果方差很大,说明传感器噪声严重;
  • 如果机械臂末端位置的方差小,说明重复执行同一动作结果比较稳定。(bookdown.org)

1.2.1.3 常用统计量:标准差与协方差

标准差(Standard Deviation) 标准差是方差的平方根:

\[ \sigma_X = \sqrt{\mathrm{Var}(X)} \]

优点:

  • 与随机变量 \(X\) 的量纲相同(例如都是“米”),直观度量“典型偏离程度”;
  • 在很多工程指标中,比方差更常用,例如“噪声标准差为 0.01 m”。(matrix.skku.ac.kr)

协方差(Covariance) 当我们同时考虑两个随机变量 \(X, Y\) 时,会关心它们是不是“倾向一起变大或一起变小”。协方差定义为:

\[ \mathrm{Cov}(X,Y) = \mathbb{E}\big[(X - \mu_X)(Y - \mu_Y)\big] \]

其中 \(\mu_X = \mathbb{E}[X]\), \(\mu_Y = \mathbb{E}[Y]\)。(bookdown.org)

直观解释:

  • \(\mathrm{Cov}(X,Y) > 0\):当 \(X\) 高于自己平均值时,\(Y\) 也往往高于自己的平均值(“正相关”);
  • \(\mathrm{Cov}(X,Y) < 0\):一个偏高时另一个偏低(“负相关”);
  • \(\mathrm{Cov}(X,Y) \approx 0\):二者之间基本没有线性关系。

协方差矩阵 对多维随机向量 \(\mathbf{X}=(X_1,\dots,X_d)\),可以把所有变量两两之间的协方差排成一个矩阵:

\[ \Sigma_{ij} = \mathrm{Cov}(X_i, X_j) \]

这个矩阵在后续的多元高斯分布、PCA、卡尔曼滤波等场景中将频繁出现。

在机器人中的例子

  • 左右轮速度的协方差:如果机器人在直线行驶时,两轮速度偏差往往同向变化,则协方差为正。
  • 多关节机械臂末端误差的协方差:可以描述各方向误差是“独立的”还是“耦合的”。(MachineLearningMastery.com)

图片占位: 【图 1-2-2】二维散点图三组: 1)点云大致沿着右上斜线(正协方差); 2)点云沿右下斜线(负协方差); 3)点云几乎圆形云团(协方差约为 0)。


1.2.2 条件概率、贝叶斯公式、独立与条件独立

机器人决策几乎总是在“知道了一部分信息”的前提下进行的:

  • 已经看见桌上有杯子;
  • 已经知道上一步动作执行成功;
  • 已经检测到前方障碍物。

此时我们需要的就是条件概率贝叶斯更新


1.2.2.1 条件概率

定义 在事件 \(B\) 已经发生的前提下,事件 \(A\) 发生的概率称为条件概率,记为 \(\mathbb{P}(A\mid B)\):

\[ \mathbb{P}(A\mid B) = \frac{\mathbb{P}(A\cap B)}{\mathbb{P}(B)},\quad \mathbb{P}(B)>0 \]

这表示:在“只考虑 \(B\) 发生的那些情况”时,\(A\) 出现的比例。(麻省理工学院数学)

乘法公式 由定义可得:

\[ \mathbb{P}(A\cap B) = \mathbb{P}(A\mid B),\mathbb{P}(B) = \mathbb{P}(B\mid A),\mathbb{P}(A) \]

例子:视觉检测

  • \(A\):实际上前方真的有障碍物;
  • \(B\):视觉模型输出“有障碍物”。

\(\mathbb{P}(B\mid A)\) 是检测器的召回,\(\mathbb{P}(B\mid\neg A)\) 反映** 误报率**; 条件概率允许我们根据检测结果重新评估“前方真的有障碍”的可能性。


1.2.2.2 贝叶斯公式

贝叶斯公式给出了“反向推理”的方式:通过观测结果 \(B\),更新对原因 \(A\) 的信念:

\[ \mathbb{P}(A\mid B) = \frac{\mathbb{P}(B\mid A),\mathbb{P}(A)}{\mathbb{P}(B)} \]

其中

  • \(\mathbb{P}(A)\):先验概率,表示在看到数据之前对 \(A\) 的主观信念;
  • \(\mathbb{P}(B\mid A)\):似然(likelihood),数据在假设 \(A\) 成立下出现的概率;
  • \(\mathbb{P}(B)\):证据(evidence),是数据在所有可能假设下出现的总体概率;
  • \(\mathbb{P}(A\mid B)\):后验概率,看到数据之后对 \(A\) 的更新信念。(AlmaBetter)

面向参数 \(\theta\) 与数据 \(D\) 的形式常写为:

\[ p(\theta\mid D) = \frac{p(D\mid\theta),p(\theta)}{p(D)} \]

机器人示例:障碍物存在概率

  • \(A\):前方有障碍物;
  • \(D\):相机模型给出“有障碍”信号。

若我们知道传感器在有障碍 / 无障碍时的检测分布,就可以用贝叶斯公式更新 \(\mathbb{P}(A\mid D)\),从而更理性地决定是否减速或绕行。


1.2.2.3 事件独立与条件独立

独立(Independence) 事件 A 与 B 独立,当且仅当:

\[ \mathbb{P}(A\cap B) = \mathbb{P}(A),\mathbb{P}(B) \]

等价地:

\[ \mathbb{P}(A\mid B) = \mathbb{P}(A),\quad \mathbb{P}(B\mid A) = \mathbb{P}(B) \]

直觉:A 是否发生对 B 完全没有影响,反之亦然。(麻省理工学院数学)

条件独立(Conditional Independence) 在给定条件 C 的前提下,如果

\[ \mathbb{P}(A,B\mid C) = \mathbb{P}(A\mid C),\mathbb{P}(B\mid C) \]

则称 \(A\) 与 \(B\) 在条件 \(C\) 下独立,记作 \(A \perp B \mid C\)。

例子:

  • C:房间的布局已知;
  • A:左侧存在障碍;
  • B:右侧存在障碍。

在给定布局的条件下,左右是否有障碍可以近似看作相互独立。

条件独立的假设在贝叶斯网络等概率图模型中极其重要,可以使高维概率分布分解为若干简单因子,大幅降低建模与推断的复杂度。(Engineering LibreTexts)


1.2.3 常见分布(高斯、伯努利、多项式等)

具身智能中的很多子模块——从传感器噪声建模,到二分类/多分类,再到事件计数——都依赖于少数几个“常见分布”。掌握它们的性质,可以让你快速看懂大多数机器人与机器学习论文中的概率假设。


1.2.3.1 高斯分布(正态分布)

一维高斯分布 记为 \(X\sim\mathcal{N}(\mu,\sigma^2)\),其密度函数为:

\[ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp\Big(-\frac{(x-\mu)^2}{2\sigma^2}\Big) \]

特性:

  • 曲线呈钟形,对称地围绕 \(\mu\);
  • \(\mu\):期望(位置参数),决定峰值位置;
  • \(\sigma^2\):方差(尺度参数),决定“胖瘦”,\(\sigma\) 越大,分布越“平”。(Analytics Vidhya)

中心极限定理的直觉 大量小扰动相加往往近似服从高斯分布——这解释了为什么自然界和工程系统中,高斯噪声如此常见。

多元高斯与协方差矩阵 对于向量随机变量 \(\mathbf{X}\in\mathbb{R}^d\),多元高斯由均值向量 \(\boldsymbol{\mu}\) 和** 协方差矩阵** \(\Sigma\) 决定:

\[ \mathbf{X}\sim\mathcal{N}(\boldsymbol{\mu},\Sigma) \]

协方差矩阵中的元素 \(\Sigma_{ij}=\mathrm{Cov}(X_i,X_j)\) 描述各维度之间的相关性。(bookdown.org)

在机器人中的应用

  • 激光雷达 / 深度相机测距误差常建模为高斯噪声;
  • 卡尔曼滤波器(轨迹估计)假设过程噪声和观测噪声服从高斯分布;
  • 机械臂末端误差的联合分布可视作多元高斯,从而用协方差椭球描述“不确定区域”。

图片占位: 【图 1-2-3】一维高斯分布示意图:均值相同、标准差不同的几条“钟形曲线”;以及二维高斯的等高线椭圆。


1.2.3.2 伯努利分布与多项分布

伯努利分布(Bernoulli) 如果随机变量 X 只取 0 或 1 两个值,且

\[ \mathbb{P}(X=1)=p,\quad \mathbb{P}(X=0)=1-p \]

则称 \(X\) 服从伯努利分布,记为 \(X\sim\mathrm{Bernoulli}(p)\)。(Analytics Vidhya)

其期望与方差为:

\[ \mathbb{E}[X]=p,\quad \mathrm{Var}(X)=p(1-p) \]

机器人中的例子:

  • 某次抓取是否成功;
  • 安全监测中某类报警是否触发;
  • 一个二分类模型的标签(“人类 / 非人类”)。

多项分布(Multinomial) 伯努利是“两选一”。如果一次试验有 \(K\) 种互斥结果(如红/绿/蓝三个类),各自概率为 \(\mathbf{p}=(p_1,\dots,p_K)\),重复进行 \(n\) 次独立试验,统计每类出现次数 \(\mathbf{X}=(X_1,\dots,X_K)\),则 \(\mathbf{X}\) 服从多项分布:

\[ \mathbf{X}\sim \mathrm{Multinomial}(n; p_1,\dots,p_K) \]

概率质量函数为:

\[ \mathbb{P}(X_1=x_1,\dots,X_K=x_K) = \frac{n!}{x_1!\cdots x_K!}, p_1^{x_1}\cdots p_K^{x_K} \]

满足 \(x_1+\cdots+x_K=n\)。(statlect.com)

在机器学习中,多项分布常用于:

  • 建模一个 K 类分类器在 n 次独立预测中的类别计数;
  • 语言模型中,对某词窗口内词类计数建模。

1.2.3.3 其他常用分布:均匀、指数、泊松

均匀分布(Uniform)

  • 离散均匀:在有限集合 \({1,\dots,N}\) 上,每个值概率 \(1/N\);

  • 连续均匀:在区间 [a,b] 上密度为

    \[ f(x) = \frac{1}{b-a},\quad x\in[a,b] \]

常被用作“无偏无信息”的简化假设或初始化。例如,在缺乏任何先验时,可以假设机器人初始位置在某区域服从均匀分布。

指数分布(Exponential) 指数分布用于建模非负的等待时间,密度为:

\[ f(x) = \lambda e^{-\lambda x},\quad x\ge 0 \]

其期望为 \(1/\lambda\),具有“无记忆性”:已经等了 5 秒,再等 1 秒的概率与之前等了多久无关。(Analytics Vidhya)

在机器人中,可用于近似:

  • 两次随机事件(如人进入视野、网络通信中断)之间的时间间隔。

泊松分布(Poisson) 泊松分布常用来描述单位时间内某种稀有事件发生次数:

\[ \mathbb{P}(X=k) = \frac{\lambda^k e^{-\lambda}}{k!},\quad k=0,1,2,\dots \]

参数 \(\lambda\) 同时是其均值和方差 。(Medium)

机器人例子:

  • 某段时间内传感器“检测到人”的次数;
  • 控制系统中“紧急避障事件”的触发次数。

图片占位: 【图 1-2-4】三行图:

  • 均匀分布的平坦曲线;
  • 指数分布的单调递减曲线;
  • 泊松分布的离散柱状图,展示不同 \(\lambda\) 下形状差异。

1.2.4 最大似然估计、最大后验估计

在机器人学习和机器学习中,我们经常需要“从数据中估计模型参数”:例如估计传感器噪声方差、估计某类动作成功率。最大似然(MLE)和最大后验(MAP)是两种最常用的参数估计方法。(Medium)


1.2.4.1 最大似然估计(MLE)

似然函数(Likelihood) 给定模型参数 \(\theta\)、数据集 \(D={x_1,\dots,x_n}\),我们将在参数 \(\theta\) 下观测到这些数据的概率 视为似然函数:

\[ L(\theta; D) = p(D\mid\theta) \]

若样本在参数 \(\theta\) 下独立同分布(i.i.d.),则

\[ L(\theta; D) = \prod_{i=1}^n p(x_i\mid\theta) \]

常使用对数似然

\[ \ell(\theta; D) = \log L(\theta; D) = \sum_{i=1}^n \log p(x_i\mid\theta) \]

最大似然估计 MLE 就是选取使似然函数最大的参数:

\[ \hat{\theta}_{\text{MLE}} = \arg\max_{\theta} L(\theta; D) = \arg\max_{\theta} \ell(\theta; D) \]

示例:抛硬币估计成功率 假设硬币正面概率为 p,进行 n 次抛掷,结果中有 k 次正面。似然为

\[ L(p) = p^k (1-p)^{n-k} \]

对数似然:

\[ \ell(p) = k\log p + (n-k)\log(1-p) \]

对 p 求导并令其为 0,可得到

\[ \hat{p}_{\text{MLE}} = \frac{k}{n} \]

在机器人里,可类似地用 MLE 估计某动作“成功”的概率,或高斯噪声的均值与方差等。(Medium)


1.2.4.2 最大后验估计(MAP)

MLE 只利用数据,不考虑任何“先验经验”。在很多机器人场景中,我们往往已有经验

  • 传感器噪声大致在某个范围内;
  • 某抓取动作成功率不太可能比 0.99 还高。

此时可以采用 贝叶斯视角

\[ p(\theta\mid D) \propto p(D\mid\theta),p(\theta) \]

其中 \(p(\theta)\) 是先验分布,\(p(\theta\mid D)\) 是后验分布。

最大后验估计(MAP) 选择使后验概率最大的参数:

\[ \hat{\theta}_{\text{MAP}} = \arg\max_{\theta} p(\theta\mid D) = \arg\max_{\theta} \big[p(D\mid\theta),p(\theta)\big] \]

取对数:

\[ \hat{\theta}_{\text{MAP}} = \arg\max_{\theta} \big[ \log p(D\mid\theta) + \log p(\theta) \big] \]

这看起来像是在最大化“数据项 + 先验项”。(Medium)

示例:带 Beta 先验的硬币 对硬币成功率 \(p\) 施加 Beta 先验 \(p\sim\mathrm{Beta}(\alpha,\beta)\),观测到 \(k\) 次成功、\(n-k\) 次失败后,后验还是 Beta 分布:

\[ p\mid D \sim \mathrm{Beta}(\alpha+k,\beta+n-k) \]

其众数(在 \(\alpha+k>1,\ \beta+n-k>1\) 时)是 MAP 估计:

\[ \hat{p}_{\text{MAP}} = \frac{\alpha+k-1}{\alpha+\beta+n-2} \]

可以看到:当样本数不大时,先验参数 \(\alpha,\beta\) 会起到“平滑”作用,防止估计过于极端。


1.2.4.3 MLE 与 MAP 的区别联系

联系

  • 若先验 \(p(\theta)\) 为常数(即“非信息先验”),或者在样本数 \(n\to\infty\) 时先验影响逐渐被数据淹没,则

    \[ \hat{\theta}_{\text{MAP}} \approx \hat{\theta}_{\text{MLE}} \]

  • 因此,在大量数据场景下,MLE 和 MAP 往往给出非常接近的结果。(Medium)

差异与直觉

从优化角度看,MAP = MLE + 正则化:

\[ \max_{\theta} \big[\log p(D\mid\theta) + \log p(\theta)\big] \]

  • 如果先验是高斯 \(p(\theta)\propto \exp(-\lambda|\theta|_2^2)\),那么 \(-\log p(\theta)\) 就对应 L2 正则;
  • 如果先验是拉普拉斯 \(p(\theta)\propto \exp(-\lambda|\theta|_1)\),则对应 L1 正则。

这和后面“机器学习中的正则化”一节是同一逻辑,只是换了一种(贝叶斯)语言来理解。

工程取舍

  • 数据少、噪声大时,MAP 利用先验经验能给出更稳定的估计;
  • 数据丰富时,MLE 足够,计算更简单;
  • 在具身智能中,利用物理先验(例如“参数不可能无限大”)进入 MAP,是将“常识”注入算法的一个重要途径。

1.2.5 KL 散度、交叉熵与在机器学习中的意义

从这一小节开始,概率论和信息论与“损失函数”“训练目标”直接联系起来。几乎所有现代分类模型、概率模型、强化学习策略优化,都在某种形式上最小化 KL 散度或交叉熵。(RAINBOW-LAB)


1.2.5.1 KL 散度

定义 给定两个分布 P 和 Q,对同一随机变量 X:

  • 离散情形:

    \[ D_{\mathrm{KL}}(P|Q) = \sum_x P(x),\log\frac{P(x)}{Q(x)} \]

  • 连续情形(形式类似,用积分):

    \[ D_{\mathrm{KL}}(P|Q) = \int P(x),\log\frac{P(x)}{Q(x)},\mathrm{d}x \]

性质:

  • \(D_{\mathrm{KL}}(P|Q)\ge 0\),且等号成立当且仅当 \(P=Q\)(几乎处处);
  • 不对称:一般有 \(D_{\mathrm{KL}}(P|Q)\neq D_{\mathrm{KL}}(Q|P)\),因此它不是严格意义上的“距离”。(RAINBOW-LAB)

信息论解释 如果真实分布是 P,但你按照 Q 来设计最优编码,那么平均每个样本要多付出

\[ D_{\mathrm{KL}}(P|Q) \]

这么多“比特”的代价。因此,KL 散度可以理解为:用 Q 近似 P 的“信息损失” 。(RAINBOW-LAB)

在机器人中的直觉

  • P:真实环境中动作/状态的分布;
  • Q:你的模型或策略认为的分布。

KL 散度越小,说明模型对环境的刻画越接近真实;在策略优化中,也经常用 KL 来限制新旧策略偏差,防止机器人行为突然变化过大。


1.2.5.2 交叉熵

熵(Entropy)与交叉熵 熵 \(H(P)\) 描述分布 \(P\) 的不确定性:

\[ H(P) = -\sum_x P(x)\log P(x) \]

交叉熵 \(H(P,Q)\) 则定义为:

\[ H(P,Q) = -\sum_x P(x)\log Q(x) \]

注意两者的关系:

\[ H(P,Q) = H(P) + D_{\mathrm{KL}}(P|Q) \]

由于对给定的真实分布 \(P\),熵 \(H(P)\) 是常数,因此最小化交叉熵等价于最小化 KL 散度 。(RAINBOW-LAB)

分类问题中的交叉熵损失

  • 二分类(标签 \(y\in{0,1}\),模型输出 \(\hat{p}=\mathbb{P}(y=1\mid x)\)):

    \[ \ell(x,y) = -\big[y\log\hat{p} + (1-y)\log(1-\hat{p})\big] \]

  • 多分类(标签为 one-hot 向量 \(\mathbf{y}\),预测分布为 \(\hat{\mathbf{p}}\)):

    \[ \ell(x,\mathbf{y}) = -\sum_{k} y_k\log \hat{p}_k \]

    对于 one-hot 标签,有 \(\ell = -\log \hat{p}_{\text{真实类别}}\)。

这正是深度学习中最常用的 交叉熵损失函数 。(DataCamp)

图片占位: 【图 1-2-5】二维示意图:真实分布 \(P\) 与预测分布 \(Q\) 的条形图,并在旁边标注 KL\((P|Q)\) 与交叉熵 \(H(P,Q)\) 的关系式。


1.2.5.3 在机器学习中的应用

监督学习中的损失函数 大部分分类模型都是在最小化“真实标签分布 P 与模型预测分布 Q 的交叉熵”——这在概率论层面就是让模型分布逼近真实数据分布,从而最小化 KL 散度。(DataCamp)

生成模型与分布拟合

  • 在变分自编码器(VAE)中,我们显式使用 KL 散度约束“近似后验分布”与“先验分布”的差异;
  • 在某些密度估计问题中,训练目标就是 \(\min_\theta D_{\mathrm{KL}}(P_{\text{data}}|P_\theta)\),从而让模型 \(P_\theta\) 逼近真实数据分布。

强化学习与策略优化 在策略梯度与 PPO 等算法中,常加入 KL 散度约束:

  • \(D_{\mathrm{KL}}(\pi_{\text{old}}|\pi_{\text{new}})\) 太大说明新策略与旧策略差异过大,可能导致行为不稳定;
  • 约束 KL 散度可以看作对更新步长的一种“几何”控制,确保策略逐步演化而不是剧烈跳变,这对真实机器人尤为重要。(Medium)

在具身智能中的意义

  • 交叉熵提供了一个统一的度量,把“预测概率分布”和“真实结果”放在同一框架下比较,适用于视觉识别、语言理解、动作分类等各类子任务;
  • KL 散度则更多地用来控制“模型的变化”和“策略分布的差异”,是把“安全与稳定”融入学习过程的数学工具。

本节从随机变量、期望方差出发,经由条件概率和贝叶斯更新,到常见分布,再到 MLE / MAP 以及 KL 散度与交叉熵,构成了后续整本书中所有概率建模与学习算法的基础。后面在讨论深度学习损失函数、强化学习策略优化、VLA 模型训练目标时,你会不断看到这些概念再次出现,并在机器人具身智能的具体场景中发挥作用。