1.2 概率与统计基础 - Robotic Embodied Intelligence

1.2.1 随机变量、分布、期望与方差

在具身智能里，机器人看到的是一串“带噪声”的观测：距离可能测得偏大一点、偏小一点；每次抓取也不一定都成功。要想在不确定世界里做决策，首先要会用“随机变量”和“分布”来刻画这种不确定性。

1.2.1.1 随机变量的概念

随机试验与样本空间

随机试验：结果在单次发生前不确定，但所有可能结果是已知的过程，例如：
- 抛硬币（正面 / 反面）；
- 机器人执行抓取动作（成功 / 失败）；
- 激光雷达测距（读数会因噪声略有变化）。
样本空间：所有可能结果构成的集合，记为 \(\Omega\)。

随机变量（Random Variable） 随机变量本质上是一个函数：把样本空间中的每个结果映射到一个实数。

例如：抛硬币，定义

\[ X(\text{正面}) = 1,\quad X(\text{反面}) = 0 \]

这样“抛硬币”就被变成了“取 0 或 1 的随机变量”。
对机器人而言，可以令
- \(X\)：某次抓取是否成功（成功 = 1，失败 = 0）；
- \(Y\)：某次测距的读数（单位：米）。

离散随机变量与连续随机变量

离散型：只取有限或可数多个值，例如 \(X\in{0,1}\)、骰子点数 \({1,2,3,4,5,6}\)。
连续型：在一个区间上取任意实数，例如测得距离 \(Y\in[0,5]\) 米。

概率分布

对离散随机变量，用概率质量函数（pmf）描述：

\[ p_X(x) = \mathbb{P}(X = x) \]
对连续随机变量，用概率密度函数（pdf）描述：

\[ f_X(x) \ge 0,\quad \int_{-\infty}^{+\infty} f_X(x),\mathrm{d}x = 1 \]
相应的分布函数（CDF）为

\[ F_X(x) = \mathbb{P}(X \le x) \]

这些定义构成了概率论和统计学习的最基础语言。(bookdown.org)

图片占位：【图 1-2-1】一张示意图：上半部分为离散随机变量，在数轴上几个点画柱状条表示各自概率；下半部分为连续随机变量，画一条平滑曲线表示概率密度。

1.2.1.2 数学期望与方差

数学期望（Expectation） 直观上，期望就是“长期平均值”或“分布的重心”：

离散情形：

\[ \mathbb{E}[X] = \sum_x x, p_X(x) \]
连续情形：

\[ \mathbb{E}[X] = \int_{-\infty}^{+\infty} x, f_X(x),\mathrm{d}x \]

例如一个公平骰子 \(X\in{1,2,3,4,5,6}\)，每个点数概率 \(1/6\)：

\[ \mathbb{E}[X] = \frac{1+2+3+4+5+6}{6} = 3.5 \]

在机器人中的直觉

激光雷达多次测量同一障碍物距离，其平均值接近真实距离。
期望告诉你：如果你在同样条件下重复实验很多次，平均结果会到哪里。(bookdown.org)

方差（Variance） 期望只告诉我们“平均在哪”，但不知道“抖动有多大”。方差刻画的是随机变量偏离其期望的平均平方程度：

\[ \mathrm{Var}(X) = \mathbb{E}\big[(X - \mathbb{E}[X])^2\big] \]

常用的等价形式是：

\[ \mathrm{Var}(X) = \mathbb{E}[X^2] - \big(\mathbb{E}[X]\big)^2 \]

示例：公平骰子的方差

\[ \mathrm{Var}(X) = \mathbb{E}[X^2] - \big(\mathbb{E}[X]\big)^2 \]

\[ \mathbb{E}[X^2] = \frac{1^2+2^2+3^2+4^2+5^2+6^2}{6} = \frac{91}{6} \]

\[ \mathrm{Var}(X) = \frac{91}{6} - 3.5^2 = \frac{91}{6} - 12.25 = \frac{35}{12} \]

在机器人场景中：

如果测距结果方差很大，说明传感器噪声严重；
如果机械臂末端位置的方差小，说明重复执行同一动作结果比较稳定。(bookdown.org)

1.2.1.3 常用统计量：标准差与协方差

标准差（Standard Deviation） 标准差是方差的平方根：

\[ \sigma_X = \sqrt{\mathrm{Var}(X)} \]

优点：

与随机变量 \(X\) 的量纲相同（例如都是“米”），直观度量“典型偏离程度”；
在很多工程指标中，比方差更常用，例如“噪声标准差为 0.01 m”。(matrix.skku.ac.kr)

协方差（Covariance） 当我们同时考虑两个随机变量 \(X, Y\) 时，会关心它们是不是“倾向一起变大或一起变小”。协方差定义为：

\[ \mathrm{Cov}(X,Y) = \mathbb{E}\big[(X - \mu_X)(Y - \mu_Y)\big] \]

其中 \(\mu_X = \mathbb{E}[X]\), \(\mu_Y = \mathbb{E}[Y]\)。(bookdown.org)

直观解释：

\(\mathrm{Cov}(X,Y) > 0\)：当 \(X\) 高于自己平均值时，\(Y\) 也往往高于自己的平均值（“正相关”）；
\(\mathrm{Cov}(X,Y) < 0\)：一个偏高时另一个偏低（“负相关”）；
\(\mathrm{Cov}(X,Y) \approx 0\)：二者之间基本没有线性关系。

协方差矩阵 对多维随机向量 \(\mathbf{X}=(X_1,\dots,X_d)\)，可以把所有变量两两之间的协方差排成一个矩阵：

\[ \Sigma_{ij} = \mathrm{Cov}(X_i, X_j) \]

这个矩阵在后续的多元高斯分布、PCA、卡尔曼滤波等场景中将频繁出现。

在机器人中的例子

左右轮速度的协方差：如果机器人在直线行驶时，两轮速度偏差往往同向变化，则协方差为正。
多关节机械臂末端误差的协方差：可以描述各方向误差是“独立的”还是“耦合的”。(MachineLearningMastery.com)

图片占位：【图 1-2-2】二维散点图三组： 1）点云大致沿着右上斜线（正协方差）； 2）点云沿右下斜线（负协方差）； 3）点云几乎圆形云团（协方差约为 0）。

1.2.2 条件概率、贝叶斯公式、独立与条件独立

机器人决策几乎总是在“知道了一部分信息”的前提下进行的：

已经看见桌上有杯子；
已经知道上一步动作执行成功；
已经检测到前方障碍物。

此时我们需要的就是条件概率 与贝叶斯更新 。

1.2.2.1 条件概率

定义在事件 \(B\) 已经发生的前提下，事件 \(A\) 发生的概率称为条件概率，记为 \(\mathbb{P}(A\mid B)\)：

\[ \mathbb{P}(A\mid B) = \frac{\mathbb{P}(A\cap B)}{\mathbb{P}(B)},\quad \mathbb{P}(B)>0 \]

这表示：在“只考虑 \(B\) 发生的那些情况”时，\(A\) 出现的比例。(麻省理工学院数学)

乘法公式 由定义可得：

\[ \mathbb{P}(A\cap B) = \mathbb{P}(A\mid B),\mathbb{P}(B) = \mathbb{P}(B\mid A),\mathbb{P}(A) \]

例子：视觉检测

\(A\)：实际上前方真的有障碍物；
\(B\)：视觉模型输出“有障碍物”。

\(\mathbb{P}(B\mid A)\) 是检测器的召回，\(\mathbb{P}(B\mid\neg A)\) 反映** 误报率**；条件概率允许我们根据检测结果重新评估“前方真的有障碍”的可能性。

1.2.2.2 贝叶斯公式

贝叶斯公式给出了“反向推理”的方式：通过观测结果 \(B\)，更新对原因 \(A\) 的信念：

\[ \mathbb{P}(A\mid B) = \frac{\mathbb{P}(B\mid A),\mathbb{P}(A)}{\mathbb{P}(B)} \]

其中

\(\mathbb{P}(A)\)：先验概率，表示在看到数据之前对 \(A\) 的主观信念；
\(\mathbb{P}(B\mid A)\)：似然（likelihood），数据在假设 \(A\) 成立下出现的概率；
\(\mathbb{P}(B)\)：证据（evidence），是数据在所有可能假设下出现的总体概率；
\(\mathbb{P}(A\mid B)\)：后验概率，看到数据之后对 \(A\) 的更新信念。(AlmaBetter)

面向参数 \(\theta\) 与数据 \(D\) 的形式常写为：

\[ p(\theta\mid D) = \frac{p(D\mid\theta),p(\theta)}{p(D)} \]

机器人示例：障碍物存在概率

\(A\)：前方有障碍物；
\(D\)：相机模型给出“有障碍”信号。

若我们知道传感器在有障碍 / 无障碍时的检测分布，就可以用贝叶斯公式更新 \(\mathbb{P}(A\mid D)\)，从而更理性地决定是否减速或绕行。

1.2.2.3 事件独立与条件独立

独立（Independence） 事件 A 与 B 独立，当且仅当：

\[ \mathbb{P}(A\cap B) = \mathbb{P}(A),\mathbb{P}(B) \]

等价地：

\[ \mathbb{P}(A\mid B) = \mathbb{P}(A),\quad \mathbb{P}(B\mid A) = \mathbb{P}(B) \]

直觉：A 是否发生对 B 完全没有影响，反之亦然。(麻省理工学院数学)

条件独立（Conditional Independence） 在给定条件 C 的前提下，如果

\[ \mathbb{P}(A,B\mid C) = \mathbb{P}(A\mid C),\mathbb{P}(B\mid C) \]

则称 \(A\) 与 \(B\) 在条件 \(C\) 下独立，记作 \(A \perp B \mid C\)。

例子：

C：房间的布局已知；
A：左侧存在障碍；
B：右侧存在障碍。

在给定布局的条件下，左右是否有障碍可以近似看作相互独立。

条件独立的假设在贝叶斯网络等概率图模型中极其重要，可以使高维概率分布分解为若干简单因子，大幅降低建模与推断的复杂度。(Engineering LibreTexts)

1.2.3 常见分布（高斯、伯努利、多项式等）

具身智能中的很多子模块——从传感器噪声建模，到二分类/多分类，再到事件计数——都依赖于少数几个“常见分布”。掌握它们的性质，可以让你快速看懂大多数机器人与机器学习论文中的概率假设。

1.2.3.1 高斯分布（正态分布）

一维高斯分布 记为 \(X\sim\mathcal{N}(\mu,\sigma^2)\)，其密度函数为：

\[ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp\Big(-\frac{(x-\mu)^2}{2\sigma^2}\Big) \]

特性：

曲线呈钟形，对称地围绕 \(\mu\)；
\(\mu\)：期望（位置参数），决定峰值位置；
\(\sigma^2\)：方差（尺度参数），决定“胖瘦”，\(\sigma\) 越大，分布越“平”。(Analytics Vidhya)

中心极限定理的直觉 大量小扰动相加往往近似服从高斯分布——这解释了为什么自然界和工程系统中，高斯噪声如此常见。

多元高斯与协方差矩阵 对于向量随机变量 \(\mathbf{X}\in\mathbb{R}^d\)，多元高斯由均值向量 \(\boldsymbol{\mu}\) 和** 协方差矩阵** \(\Sigma\) 决定：

\[ \mathbf{X}\sim\mathcal{N}(\boldsymbol{\mu},\Sigma) \]

协方差矩阵中的元素 \(\Sigma_{ij}=\mathrm{Cov}(X_i,X_j)\) 描述各维度之间的相关性。(bookdown.org)

在机器人中的应用

激光雷达 / 深度相机测距误差常建模为高斯噪声；
卡尔曼滤波器（轨迹估计）假设过程噪声和观测噪声服从高斯分布；
机械臂末端误差的联合分布可视作多元高斯，从而用协方差椭球描述“不确定区域”。

图片占位：【图 1-2-3】一维高斯分布示意图：均值相同、标准差不同的几条“钟形曲线”；以及二维高斯的等高线椭圆。

1.2.3.2 伯努利分布与多项分布

伯努利分布（Bernoulli） 如果随机变量 X 只取 0 或 1 两个值，且

\[ \mathbb{P}(X=1)=p,\quad \mathbb{P}(X=0)=1-p \]

则称 \(X\) 服从伯努利分布，记为 \(X\sim\mathrm{Bernoulli}(p)\)。(Analytics Vidhya)

其期望与方差为：

\[ \mathbb{E}[X]=p,\quad \mathrm{Var}(X)=p(1-p) \]

机器人中的例子：

某次抓取是否成功；
安全监测中某类报警是否触发；
一个二分类模型的标签（“人类 / 非人类”）。

多项分布（Multinomial） 伯努利是“两选一”。如果一次试验有 \(K\) 种互斥结果（如红/绿/蓝三个类），各自概率为 \(\mathbf{p}=(p_1,\dots,p_K)\)，重复进行 \(n\) 次独立试验，统计每类出现次数 \(\mathbf{X}=(X_1,\dots,X_K)\)，则 \(\mathbf{X}\) 服从多项分布：

\[ \mathbf{X}\sim \mathrm{Multinomial}(n; p_1,\dots,p_K) \]

概率质量函数为：

\[ \mathbb{P}(X_1=x_1,\dots,X_K=x_K) = \frac{n!}{x_1!\cdots x_K!}, p_1^{x_1}\cdots p_K^{x_K} \]

满足 \(x_1+\cdots+x_K=n\)。(statlect.com)

在机器学习中，多项分布常用于：

建模一个 K 类分类器在 n 次独立预测中的类别计数；
语言模型中，对某词窗口内词类计数建模。

1.2.3.3 其他常用分布：均匀、指数、泊松

均匀分布（Uniform）

离散均匀：在有限集合 \({1,\dots,N}\) 上，每个值概率 \(1/N\)；
连续均匀：在区间 [a,b] 上密度为

\[ f(x) = \frac{1}{b-a},\quad x\in[a,b] \]

常被用作“无偏无信息”的简化假设或初始化。例如，在缺乏任何先验时，可以假设机器人初始位置在某区域服从均匀分布。

指数分布（Exponential） 指数分布用于建模非负的等待时间，密度为：

\[ f(x) = \lambda e^{-\lambda x},\quad x\ge 0 \]

其期望为 \(1/\lambda\)，具有“无记忆性”：已经等了 5 秒，再等 1 秒的概率与之前等了多久无关。(Analytics Vidhya)

在机器人中，可用于近似：

两次随机事件（如人进入视野、网络通信中断）之间的时间间隔。

泊松分布（Poisson） 泊松分布常用来描述单位时间内某种稀有事件发生次数：

\[ \mathbb{P}(X=k) = \frac{\lambda^k e^{-\lambda}}{k!},\quad k=0,1,2,\dots \]

参数 \(\lambda\) 同时是其均值和方差 。(Medium)

机器人例子：

某段时间内传感器“检测到人”的次数；
控制系统中“紧急避障事件”的触发次数。

图片占位：【图 1-2-4】三行图：

均匀分布的平坦曲线；

指数分布的单调递减曲线；

泊松分布的离散柱状图，展示不同 \(\lambda\) 下形状差异。

1.2.4 最大似然估计、最大后验估计

在机器人学习和机器学习中，我们经常需要“从数据中估计模型参数”：例如估计传感器噪声方差、估计某类动作成功率。最大似然（MLE）和最大后验（MAP）是两种最常用的参数估计方法。(Medium)

1.2.4.1 最大似然估计（MLE）

似然函数（Likelihood） 给定模型参数 \(\theta\)、数据集 \(D={x_1,\dots,x_n}\)，我们将在参数 \(\theta\) 下观测到这些数据的概率 视为似然函数：

\[ L(\theta; D) = p(D\mid\theta) \]

若样本在参数 \(\theta\) 下独立同分布（i.i.d.），则

\[ L(\theta; D) = \prod_{i=1}^n p(x_i\mid\theta) \]

常使用对数似然

\[ \ell(\theta; D) = \log L(\theta; D) = \sum_{i=1}^n \log p(x_i\mid\theta) \]

最大似然估计 MLE 就是选取使似然函数最大的参数：

\[ \hat{\theta}_{\text{MLE}} = \arg\max_{\theta} L(\theta; D) = \arg\max_{\theta} \ell(\theta; D) \]

示例：抛硬币估计成功率 假设硬币正面概率为 p，进行 n 次抛掷，结果中有 k 次正面。似然为

\[ L(p) = p^k (1-p)^{n-k} \]

对数似然：

\[ \ell(p) = k\log p + (n-k)\log(1-p) \]

对 p 求导并令其为 0，可得到

\[ \hat{p}_{\text{MLE}} = \frac{k}{n} \]

在机器人里，可类似地用 MLE 估计某动作“成功”的概率，或高斯噪声的均值与方差等。(Medium)

1.2.4.2 最大后验估计（MAP）

MLE 只利用数据，不考虑任何“先验经验”。在很多机器人场景中，我们往往已有经验：

传感器噪声大致在某个范围内；
某抓取动作成功率不太可能比 0.99 还高。

此时可以采用 贝叶斯视角：

\[ p(\theta\mid D) \propto p(D\mid\theta),p(\theta) \]

其中 \(p(\theta)\) 是先验分布，\(p(\theta\mid D)\) 是后验分布。

最大后验估计（MAP） 选择使后验概率最大的参数：

\[ \hat{\theta}_{\text{MAP}} = \arg\max_{\theta} p(\theta\mid D) = \arg\max_{\theta} \big[p(D\mid\theta),p(\theta)\big] \]

取对数：

\[ \hat{\theta}_{\text{MAP}} = \arg\max_{\theta} \big[ \log p(D\mid\theta) + \log p(\theta) \big] \]

这看起来像是在最大化“数据项 + 先验项”。(Medium)

示例：带 Beta 先验的硬币 对硬币成功率 \(p\) 施加 Beta 先验 \(p\sim\mathrm{Beta}(\alpha,\beta)\)，观测到 \(k\) 次成功、\(n-k\) 次失败后，后验还是 Beta 分布：

\[ p\mid D \sim \mathrm{Beta}(\alpha+k,\beta+n-k) \]

其众数（在 \(\alpha+k>1,\ \beta+n-k>1\) 时）是 MAP 估计：

\[ \hat{p}_{\text{MAP}} = \frac{\alpha+k-1}{\alpha+\beta+n-2} \]

可以看到：当样本数不大时，先验参数 \(\alpha,\beta\) 会起到“平滑”作用，防止估计过于极端。

1.2.4.3 MLE 与 MAP 的区别联系

联系

若先验 \(p(\theta)\) 为常数（即“非信息先验”），或者在样本数 \(n\to\infty\) 时先验影响逐渐被数据淹没，则

\[ \hat{\theta}_{\text{MAP}} \approx \hat{\theta}_{\text{MLE}} \]
因此，在大量数据场景下，MLE 和 MAP 往往给出非常接近的结果。(Medium)

差异与直觉

从优化角度看，MAP = MLE + 正则化：

\[ \max_{\theta} \big[\log p(D\mid\theta) + \log p(\theta)\big] \]

如果先验是高斯 \(p(\theta)\propto \exp(-\lambda|\theta|_2^2)\)，那么 \(-\log p(\theta)\) 就对应 L2 正则；
如果先验是拉普拉斯 \(p(\theta)\propto \exp(-\lambda|\theta|_1)\)，则对应 L1 正则。

这和后面“机器学习中的正则化”一节是同一逻辑，只是换了一种（贝叶斯）语言来理解。

工程取舍

数据少、噪声大时，MAP 利用先验经验能给出更稳定的估计；
数据丰富时，MLE 足够，计算更简单；
在具身智能中，利用物理先验（例如“参数不可能无限大”）进入 MAP，是将“常识”注入算法的一个重要途径。

1.2.5 KL 散度、交叉熵与在机器学习中的意义

从这一小节开始，概率论和信息论与“损失函数”“训练目标”直接联系起来。几乎所有现代分类模型、概率模型、强化学习策略优化，都在某种形式上最小化 KL 散度或交叉熵。(RAINBOW-LAB)

1.2.5.1 KL 散度

定义给定两个分布 P 和 Q，对同一随机变量 X：

离散情形：

\[ D_{\mathrm{KL}}(P|Q) = \sum_x P(x),\log\frac{P(x)}{Q(x)} \]
连续情形（形式类似，用积分）：

\[ D_{\mathrm{KL}}(P|Q) = \int P(x),\log\frac{P(x)}{Q(x)},\mathrm{d}x \]

性质：

\(D_{\mathrm{KL}}(P|Q)\ge 0\)，且等号成立当且仅当 \(P=Q\)（几乎处处）；
不对称：一般有 \(D_{\mathrm{KL}}(P|Q)\neq D_{\mathrm{KL}}(Q|P)\)，因此它不是严格意义上的“距离”。(RAINBOW-LAB)

信息论解释 如果真实分布是 P，但你按照 Q 来设计最优编码，那么平均每个样本要多付出

\[ D_{\mathrm{KL}}(P|Q) \]

这么多“比特”的代价。因此，KL 散度可以理解为：用 Q 近似 P 的“信息损失” 。(RAINBOW-LAB)

在机器人中的直觉

P：真实环境中动作/状态的分布；
Q：你的模型或策略认为的分布。

KL 散度越小，说明模型对环境的刻画越接近真实；在策略优化中，也经常用 KL 来限制新旧策略偏差，防止机器人行为突然变化过大。

1.2.5.2 交叉熵

熵（Entropy）与交叉熵 熵 \(H(P)\) 描述分布 \(P\) 的不确定性：

\[ H(P) = -\sum_x P(x)\log P(x) \]

交叉熵 \(H(P,Q)\) 则定义为：

\[ H(P,Q) = -\sum_x P(x)\log Q(x) \]

注意两者的关系：

\[ H(P,Q) = H(P) + D_{\mathrm{KL}}(P|Q) \]

由于对给定的真实分布 \(P\)，熵 \(H(P)\) 是常数，因此最小化交叉熵等价于最小化 KL 散度 。(RAINBOW-LAB)

分类问题中的交叉熵损失

二分类（标签 \(y\in{0,1}\)，模型输出 \(\hat{p}=\mathbb{P}(y=1\mid x)\)）：

\[ \ell(x,y) = -\big[y\log\hat{p} + (1-y)\log(1-\hat{p})\big] \]
多分类（标签为 one-hot 向量 \(\mathbf{y}\)，预测分布为 \(\hat{\mathbf{p}}\)）：

\[ \ell(x,\mathbf{y}) = -\sum_{k} y_k\log \hat{p}_k \]

对于 one-hot 标签，有 \(\ell = -\log \hat{p}_{\text{真实类别}}\)。

这正是深度学习中最常用的 交叉熵损失函数 。(DataCamp)

图片占位：【图 1-2-5】二维示意图：真实分布 \(P\) 与预测分布 \(Q\) 的条形图，并在旁边标注 KL\((P|Q)\) 与交叉熵 \(H(P,Q)\) 的关系式。

1.2.5.3 在机器学习中的应用

监督学习中的损失函数 大部分分类模型都是在最小化“真实标签分布 P 与模型预测分布 Q 的交叉熵”——这在概率论层面就是让模型分布逼近真实数据分布，从而最小化 KL 散度。(DataCamp)

生成模型与分布拟合

在变分自编码器（VAE）中，我们显式使用 KL 散度约束“近似后验分布”与“先验分布”的差异；
在某些密度估计问题中，训练目标就是 \(\min_\theta D_{\mathrm{KL}}(P_{\text{data}}|P_\theta)\)，从而让模型 \(P_\theta\) 逼近真实数据分布。

强化学习与策略优化 在策略梯度与 PPO 等算法中，常加入 KL 散度约束：

\(D_{\mathrm{KL}}(\pi_{\text{old}}|\pi_{\text{new}})\) 太大说明新策略与旧策略差异过大，可能导致行为不稳定；
约束 KL 散度可以看作对更新步长的一种“几何”控制，确保策略逐步演化而不是剧烈跳变，这对真实机器人尤为重要。(Medium)

在具身智能中的意义

交叉熵提供了一个统一的度量，把“预测概率分布”和“真实结果”放在同一框架下比较，适用于视觉识别、语言理解、动作分类等各类子任务；
KL 散度则更多地用来控制“模型的变化”和“策略分布的差异”，是把“安全与稳定”融入学习过程的数学工具。

本节从随机变量、期望方差出发，经由条件概率和贝叶斯更新，到常见分布，再到 MLE / MAP 以及 KL 散度与交叉熵，构成了后续整本书中所有概率建模与学习算法的基础。后面在讨论深度学习损失函数、强化学习策略优化、VLA 模型训练目标时，你会不断看到这些概念再次出现，并在机器人具身智能的具体场景中发挥作用。

Keyboard shortcuts

Robotic Embodied Intelligence - From Zero to Hero