1.2.1 随机变量、分布、期望与方差
在具身智能里,机器人看到的是一串“带噪声”的观测:距离可能测得偏大一点、偏小一点;每次抓取也不一定都成功。要想在不确定世界里做决策,首先要会用“随机变量”和“分布”来刻画这种不确定性。
1.2.1.1 随机变量的概念
随机试验与样本空间
- 随机试验:结果在单次发生前不确定,但所有可能结果是已知的过程,例如:
- 抛硬币(正面 / 反面);
- 机器人执行抓取动作(成功 / 失败);
- 激光雷达测距(读数会因噪声略有变化)。
- 样本空间:所有可能结果构成的集合,记为 \(\Omega\)。
随机变量(Random Variable) 随机变量本质上是一个函数:把样本空间中的每个结果映射到一个实数。
-
例如:抛硬币,定义
\[ X(\text{正面}) = 1,\quad X(\text{反面}) = 0 \]
这样“抛硬币”就被变成了“取 0 或 1 的随机变量”。
-
对机器人而言,可以令
- \(X\):某次抓取是否成功(成功 = 1,失败 = 0);
- \(Y\):某次测距的读数(单位:米)。
离散随机变量与连续随机变量
- 离散型:只取有限或可数多个值,例如 \(X\in{0,1}\)、骰子点数 \({1,2,3,4,5,6}\)。
- 连续型:在一个区间上取任意实数,例如测得距离 \(Y\in[0,5]\) 米。
概率分布
-
对离散随机变量,用概率质量函数(pmf)描述:
\[ p_X(x) = \mathbb{P}(X = x) \]
-
对连续随机变量,用概率密度函数(pdf)描述:
\[ f_X(x) \ge 0,\quad \int_{-\infty}^{+\infty} f_X(x),\mathrm{d}x = 1 \]
-
相应的分布函数(CDF)为
\[ F_X(x) = \mathbb{P}(X \le x) \]
这些定义构成了概率论和统计学习的最基础语言。(bookdown.org)
图片占位: 【图 1-2-1】一张示意图:上半部分为离散随机变量,在数轴上几个点画柱状条表示各自概率;下半部分为连续随机变量,画一条平滑曲线表示概率密度。
1.2.1.2 数学期望与方差
数学期望(Expectation) 直观上,期望就是“长期平均值”或“分布的重心”:
-
离散情形:
\[ \mathbb{E}[X] = \sum_x x, p_X(x) \]
-
连续情形:
\[ \mathbb{E}[X] = \int_{-\infty}^{+\infty} x, f_X(x),\mathrm{d}x \]
例如一个公平骰子 \(X\in{1,2,3,4,5,6}\),每个点数概率 \(1/6\):
\[ \mathbb{E}[X] = \frac{1+2+3+4+5+6}{6} = 3.5 \]
在机器人中的直觉
- 激光雷达多次测量同一障碍物距离,其平均值接近真实距离。
- 期望告诉你:如果你在同样条件下重复实验很多次,平均结果会到哪里。(bookdown.org)
方差(Variance) 期望只告诉我们“平均在哪”,但不知道“抖动有多大”。方差刻画的是随机变量偏离其期望的平均平方程度:
\[ \mathrm{Var}(X) = \mathbb{E}\big[(X - \mathbb{E}[X])^2\big] \]
常用的等价形式是:
\[ \mathrm{Var}(X) = \mathbb{E}[X^2] - \big(\mathbb{E}[X]\big)^2 \]
示例:公平骰子的方差
\[ \mathrm{Var}(X) = \mathbb{E}[X^2] - \big(\mathbb{E}[X]\big)^2 \]
\[ \mathbb{E}[X^2] = \frac{1^2+2^2+3^2+4^2+5^2+6^2}{6} = \frac{91}{6} \]
\[ \mathrm{Var}(X) = \frac{91}{6} - 3.5^2 = \frac{91}{6} - 12.25 = \frac{35}{12} \]
在机器人场景中:
- 如果测距结果方差很大,说明传感器噪声严重;
- 如果机械臂末端位置的方差小,说明重复执行同一动作结果比较稳定。(bookdown.org)
1.2.1.3 常用统计量:标准差与协方差
标准差(Standard Deviation) 标准差是方差的平方根:
\[ \sigma_X = \sqrt{\mathrm{Var}(X)} \]
优点:
- 与随机变量 \(X\) 的量纲相同(例如都是“米”),直观度量“典型偏离程度”;
- 在很多工程指标中,比方差更常用,例如“噪声标准差为 0.01 m”。(matrix.skku.ac.kr)
协方差(Covariance) 当我们同时考虑两个随机变量 \(X, Y\) 时,会关心它们是不是“倾向一起变大或一起变小”。协方差定义为:
\[ \mathrm{Cov}(X,Y) = \mathbb{E}\big[(X - \mu_X)(Y - \mu_Y)\big] \]
其中 \(\mu_X = \mathbb{E}[X]\), \(\mu_Y = \mathbb{E}[Y]\)。(bookdown.org)
直观解释:
- \(\mathrm{Cov}(X,Y) > 0\):当 \(X\) 高于自己平均值时,\(Y\) 也往往高于自己的平均值(“正相关”);
- \(\mathrm{Cov}(X,Y) < 0\):一个偏高时另一个偏低(“负相关”);
- \(\mathrm{Cov}(X,Y) \approx 0\):二者之间基本没有线性关系。
协方差矩阵 对多维随机向量 \(\mathbf{X}=(X_1,\dots,X_d)\),可以把所有变量两两之间的协方差排成一个矩阵:
\[ \Sigma_{ij} = \mathrm{Cov}(X_i, X_j) \]
这个矩阵在后续的多元高斯分布、PCA、卡尔曼滤波等场景中将频繁出现。
在机器人中的例子
- 左右轮速度的协方差:如果机器人在直线行驶时,两轮速度偏差往往同向变化,则协方差为正。
- 多关节机械臂末端误差的协方差:可以描述各方向误差是“独立的”还是“耦合的”。(MachineLearningMastery.com)
图片占位: 【图 1-2-2】二维散点图三组: 1)点云大致沿着右上斜线(正协方差); 2)点云沿右下斜线(负协方差); 3)点云几乎圆形云团(协方差约为 0)。
1.2.2 条件概率、贝叶斯公式、独立与条件独立
机器人决策几乎总是在“知道了一部分信息”的前提下进行的:
- 已经看见桌上有杯子;
- 已经知道上一步动作执行成功;
- 已经检测到前方障碍物。
此时我们需要的就是条件概率 与贝叶斯更新 。
1.2.2.1 条件概率
定义 在事件 \(B\) 已经发生的前提下,事件 \(A\) 发生的概率称为条件概率,记为 \(\mathbb{P}(A\mid B)\):
\[ \mathbb{P}(A\mid B) = \frac{\mathbb{P}(A\cap B)}{\mathbb{P}(B)},\quad \mathbb{P}(B)>0 \]
这表示:在“只考虑 \(B\) 发生的那些情况”时,\(A\) 出现的比例。(麻省理工学院数学)
乘法公式 由定义可得:
\[ \mathbb{P}(A\cap B) = \mathbb{P}(A\mid B),\mathbb{P}(B) = \mathbb{P}(B\mid A),\mathbb{P}(A) \]
例子:视觉检测
- \(A\):实际上前方真的有障碍物;
- \(B\):视觉模型输出“有障碍物”。
\(\mathbb{P}(B\mid A)\) 是检测器的召回,\(\mathbb{P}(B\mid\neg A)\) 反映** 误报率**; 条件概率允许我们根据检测结果重新评估“前方真的有障碍”的可能性。
1.2.2.2 贝叶斯公式
贝叶斯公式给出了“反向推理”的方式:通过观测结果 \(B\),更新对原因 \(A\) 的信念:
\[ \mathbb{P}(A\mid B) = \frac{\mathbb{P}(B\mid A),\mathbb{P}(A)}{\mathbb{P}(B)} \]
其中
- \(\mathbb{P}(A)\):先验概率,表示在看到数据之前对 \(A\) 的主观信念;
- \(\mathbb{P}(B\mid A)\):似然(likelihood),数据在假设 \(A\) 成立下出现的概率;
- \(\mathbb{P}(B)\):证据(evidence),是数据在所有可能假设下出现的总体概率;
- \(\mathbb{P}(A\mid B)\):后验概率,看到数据之后对 \(A\) 的更新信念。(AlmaBetter)
面向参数 \(\theta\) 与数据 \(D\) 的形式常写为:
\[ p(\theta\mid D) = \frac{p(D\mid\theta),p(\theta)}{p(D)} \]
机器人示例:障碍物存在概率
- \(A\):前方有障碍物;
- \(D\):相机模型给出“有障碍”信号。
若我们知道传感器在有障碍 / 无障碍时的检测分布,就可以用贝叶斯公式更新 \(\mathbb{P}(A\mid D)\),从而更理性地决定是否减速或绕行。
1.2.2.3 事件独立与条件独立
独立(Independence) 事件 A 与 B 独立,当且仅当:
\[ \mathbb{P}(A\cap B) = \mathbb{P}(A),\mathbb{P}(B) \]
等价地:
\[ \mathbb{P}(A\mid B) = \mathbb{P}(A),\quad \mathbb{P}(B\mid A) = \mathbb{P}(B) \]
直觉:A 是否发生对 B 完全没有影响,反之亦然。(麻省理工学院数学)
条件独立(Conditional Independence) 在给定条件 C 的前提下,如果
\[ \mathbb{P}(A,B\mid C) = \mathbb{P}(A\mid C),\mathbb{P}(B\mid C) \]
则称 \(A\) 与 \(B\) 在条件 \(C\) 下独立,记作 \(A \perp B \mid C\)。
例子:
- C:房间的布局已知;
- A:左侧存在障碍;
- B:右侧存在障碍。
在给定布局的条件下,左右是否有障碍可以近似看作相互独立。
条件独立的假设在贝叶斯网络等概率图模型中极其重要,可以使高维概率分布分解为若干简单因子,大幅降低建模与推断的复杂度。(Engineering LibreTexts)
1.2.3 常见分布(高斯、伯努利、多项式等)
具身智能中的很多子模块——从传感器噪声建模,到二分类/多分类,再到事件计数——都依赖于少数几个“常见分布”。掌握它们的性质,可以让你快速看懂大多数机器人与机器学习论文中的概率假设。
1.2.3.1 高斯分布(正态分布)
一维高斯分布 记为 \(X\sim\mathcal{N}(\mu,\sigma^2)\),其密度函数为:
\[ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp\Big(-\frac{(x-\mu)^2}{2\sigma^2}\Big) \]
特性:
- 曲线呈钟形,对称地围绕 \(\mu\);
- \(\mu\):期望(位置参数),决定峰值位置;
- \(\sigma^2\):方差(尺度参数),决定“胖瘦”,\(\sigma\) 越大,分布越“平”。(Analytics Vidhya)
中心极限定理的直觉 大量小扰动相加往往近似服从高斯分布——这解释了为什么自然界和工程系统中,高斯噪声如此常见。
多元高斯与协方差矩阵 对于向量随机变量 \(\mathbf{X}\in\mathbb{R}^d\),多元高斯由均值向量 \(\boldsymbol{\mu}\) 和** 协方差矩阵** \(\Sigma\) 决定:
\[ \mathbf{X}\sim\mathcal{N}(\boldsymbol{\mu},\Sigma) \]
协方差矩阵中的元素 \(\Sigma_{ij}=\mathrm{Cov}(X_i,X_j)\) 描述各维度之间的相关性。(bookdown.org)
在机器人中的应用
- 激光雷达 / 深度相机测距误差常建模为高斯噪声;
- 卡尔曼滤波器(轨迹估计)假设过程噪声和观测噪声服从高斯分布;
- 机械臂末端误差的联合分布可视作多元高斯,从而用协方差椭球描述“不确定区域”。
图片占位: 【图 1-2-3】一维高斯分布示意图:均值相同、标准差不同的几条“钟形曲线”;以及二维高斯的等高线椭圆。
1.2.3.2 伯努利分布与多项分布
伯努利分布(Bernoulli) 如果随机变量 X 只取 0 或 1 两个值,且
\[ \mathbb{P}(X=1)=p,\quad \mathbb{P}(X=0)=1-p \]
则称 \(X\) 服从伯努利分布,记为 \(X\sim\mathrm{Bernoulli}(p)\)。(Analytics Vidhya)
其期望与方差为:
\[ \mathbb{E}[X]=p,\quad \mathrm{Var}(X)=p(1-p) \]
机器人中的例子:
- 某次抓取是否成功;
- 安全监测中某类报警是否触发;
- 一个二分类模型的标签(“人类 / 非人类”)。
多项分布(Multinomial) 伯努利是“两选一”。如果一次试验有 \(K\) 种互斥结果(如红/绿/蓝三个类),各自概率为 \(\mathbf{p}=(p_1,\dots,p_K)\),重复进行 \(n\) 次独立试验,统计每类出现次数 \(\mathbf{X}=(X_1,\dots,X_K)\),则 \(\mathbf{X}\) 服从多项分布:
\[ \mathbf{X}\sim \mathrm{Multinomial}(n; p_1,\dots,p_K) \]
概率质量函数为:
\[ \mathbb{P}(X_1=x_1,\dots,X_K=x_K) = \frac{n!}{x_1!\cdots x_K!}, p_1^{x_1}\cdots p_K^{x_K} \]
满足 \(x_1+\cdots+x_K=n\)。(statlect.com)
在机器学习中,多项分布常用于:
- 建模一个 K 类分类器在 n 次独立预测中的类别计数;
- 语言模型中,对某词窗口内词类计数建模。
1.2.3.3 其他常用分布:均匀、指数、泊松
均匀分布(Uniform)
-
离散均匀:在有限集合 \({1,\dots,N}\) 上,每个值概率 \(1/N\);
-
连续均匀:在区间 [a,b] 上密度为
\[ f(x) = \frac{1}{b-a},\quad x\in[a,b] \]
常被用作“无偏无信息”的简化假设或初始化。例如,在缺乏任何先验时,可以假设机器人初始位置在某区域服从均匀分布。
指数分布(Exponential) 指数分布用于建模非负的等待时间,密度为:
\[ f(x) = \lambda e^{-\lambda x},\quad x\ge 0 \]
其期望为 \(1/\lambda\),具有“无记忆性”:已经等了 5 秒,再等 1 秒的概率与之前等了多久无关。(Analytics Vidhya)
在机器人中,可用于近似:
- 两次随机事件(如人进入视野、网络通信中断)之间的时间间隔。
泊松分布(Poisson) 泊松分布常用来描述单位时间内某种稀有事件发生次数:
\[ \mathbb{P}(X=k) = \frac{\lambda^k e^{-\lambda}}{k!},\quad k=0,1,2,\dots \]
参数 \(\lambda\) 同时是其均值和方差 。(Medium)
机器人例子:
- 某段时间内传感器“检测到人”的次数;
- 控制系统中“紧急避障事件”的触发次数。
图片占位: 【图 1-2-4】三行图:
- 均匀分布的平坦曲线;
- 指数分布的单调递减曲线;
- 泊松分布的离散柱状图,展示不同 \(\lambda\) 下形状差异。
1.2.4 最大似然估计、最大后验估计
在机器人学习和机器学习中,我们经常需要“从数据中估计模型参数”:例如估计传感器噪声方差、估计某类动作成功率。最大似然(MLE)和最大后验(MAP)是两种最常用的参数估计方法。(Medium)
1.2.4.1 最大似然估计(MLE)
似然函数(Likelihood) 给定模型参数 \(\theta\)、数据集 \(D={x_1,\dots,x_n}\),我们将在参数 \(\theta\) 下观测到这些数据的概率 视为似然函数:
\[ L(\theta; D) = p(D\mid\theta) \]
若样本在参数 \(\theta\) 下独立同分布(i.i.d.),则
\[ L(\theta; D) = \prod_{i=1}^n p(x_i\mid\theta) \]
常使用对数似然
\[ \ell(\theta; D) = \log L(\theta; D) = \sum_{i=1}^n \log p(x_i\mid\theta) \]
最大似然估计 MLE 就是选取使似然函数最大的参数:
\[ \hat{\theta}_{\text{MLE}} = \arg\max_{\theta} L(\theta; D) = \arg\max_{\theta} \ell(\theta; D) \]
示例:抛硬币估计成功率 假设硬币正面概率为 p,进行 n 次抛掷,结果中有 k 次正面。似然为
\[ L(p) = p^k (1-p)^{n-k} \]
对数似然:
\[ \ell(p) = k\log p + (n-k)\log(1-p) \]
对 p 求导并令其为 0,可得到
\[ \hat{p}_{\text{MLE}} = \frac{k}{n} \]
在机器人里,可类似地用 MLE 估计某动作“成功”的概率,或高斯噪声的均值与方差等。(Medium)
1.2.4.2 最大后验估计(MAP)
MLE 只利用数据,不考虑任何“先验经验”。在很多机器人场景中,我们往往已有经验:
- 传感器噪声大致在某个范围内;
- 某抓取动作成功率不太可能比 0.99 还高。
此时可以采用 贝叶斯视角:
\[ p(\theta\mid D) \propto p(D\mid\theta),p(\theta) \]
其中 \(p(\theta)\) 是先验分布,\(p(\theta\mid D)\) 是后验分布。
最大后验估计(MAP) 选择使后验概率最大的参数:
\[ \hat{\theta}_{\text{MAP}} = \arg\max_{\theta} p(\theta\mid D) = \arg\max_{\theta} \big[p(D\mid\theta),p(\theta)\big] \]
取对数:
\[ \hat{\theta}_{\text{MAP}} = \arg\max_{\theta} \big[ \log p(D\mid\theta) + \log p(\theta) \big] \]
这看起来像是在最大化“数据项 + 先验项”。(Medium)
示例:带 Beta 先验的硬币 对硬币成功率 \(p\) 施加 Beta 先验 \(p\sim\mathrm{Beta}(\alpha,\beta)\),观测到 \(k\) 次成功、\(n-k\) 次失败后,后验还是 Beta 分布:
\[ p\mid D \sim \mathrm{Beta}(\alpha+k,\beta+n-k) \]
其众数(在 \(\alpha+k>1,\ \beta+n-k>1\) 时)是 MAP 估计:
\[ \hat{p}_{\text{MAP}} = \frac{\alpha+k-1}{\alpha+\beta+n-2} \]
可以看到:当样本数不大时,先验参数 \(\alpha,\beta\) 会起到“平滑”作用,防止估计过于极端。
1.2.4.3 MLE 与 MAP 的区别联系
联系
-
若先验 \(p(\theta)\) 为常数(即“非信息先验”),或者在样本数 \(n\to\infty\) 时先验影响逐渐被数据淹没,则
\[ \hat{\theta}_{\text{MAP}} \approx \hat{\theta}_{\text{MLE}} \]
-
因此,在大量数据场景下,MLE 和 MAP 往往给出非常接近的结果。(Medium)
差异与直觉
从优化角度看,MAP = MLE + 正则化:
\[ \max_{\theta} \big[\log p(D\mid\theta) + \log p(\theta)\big] \]
- 如果先验是高斯 \(p(\theta)\propto \exp(-\lambda|\theta|_2^2)\),那么 \(-\log p(\theta)\) 就对应 L2 正则;
- 如果先验是拉普拉斯 \(p(\theta)\propto \exp(-\lambda|\theta|_1)\),则对应 L1 正则。
这和后面“机器学习中的正则化”一节是同一逻辑,只是换了一种(贝叶斯)语言来理解。
工程取舍
- 数据少、噪声大时,MAP 利用先验经验能给出更稳定的估计;
- 数据丰富时,MLE 足够,计算更简单;
- 在具身智能中,利用物理先验(例如“参数不可能无限大”)进入 MAP,是将“常识”注入算法的一个重要途径。
1.2.5 KL 散度、交叉熵与在机器学习中的意义
从这一小节开始,概率论和信息论与“损失函数”“训练目标”直接联系起来。几乎所有现代分类模型、概率模型、强化学习策略优化,都在某种形式上最小化 KL 散度或交叉熵。(RAINBOW-LAB)
1.2.5.1 KL 散度
定义 给定两个分布 P 和 Q,对同一随机变量 X:
-
离散情形:
\[ D_{\mathrm{KL}}(P|Q) = \sum_x P(x),\log\frac{P(x)}{Q(x)} \]
-
连续情形(形式类似,用积分):
\[ D_{\mathrm{KL}}(P|Q) = \int P(x),\log\frac{P(x)}{Q(x)},\mathrm{d}x \]
性质:
- \(D_{\mathrm{KL}}(P|Q)\ge 0\),且等号成立当且仅当 \(P=Q\)(几乎处处);
- 不对称:一般有 \(D_{\mathrm{KL}}(P|Q)\neq D_{\mathrm{KL}}(Q|P)\),因此它不是严格意义上的“距离”。(RAINBOW-LAB)
信息论解释 如果真实分布是 P,但你按照 Q 来设计最优编码,那么平均每个样本要多付出
\[ D_{\mathrm{KL}}(P|Q) \]
这么多“比特”的代价。因此,KL 散度可以理解为:用 Q 近似 P 的“信息损失” 。(RAINBOW-LAB)
在机器人中的直觉
- P:真实环境中动作/状态的分布;
- Q:你的模型或策略认为的分布。
KL 散度越小,说明模型对环境的刻画越接近真实;在策略优化中,也经常用 KL 来限制新旧策略偏差,防止机器人行为突然变化过大。
1.2.5.2 交叉熵
熵(Entropy)与交叉熵 熵 \(H(P)\) 描述分布 \(P\) 的不确定性:
\[ H(P) = -\sum_x P(x)\log P(x) \]
交叉熵 \(H(P,Q)\) 则定义为:
\[ H(P,Q) = -\sum_x P(x)\log Q(x) \]
注意两者的关系:
\[ H(P,Q) = H(P) + D_{\mathrm{KL}}(P|Q) \]
由于对给定的真实分布 \(P\),熵 \(H(P)\) 是常数,因此最小化交叉熵等价于最小化 KL 散度 。(RAINBOW-LAB)
分类问题中的交叉熵损失
-
二分类(标签 \(y\in{0,1}\),模型输出 \(\hat{p}=\mathbb{P}(y=1\mid x)\)):
\[ \ell(x,y) = -\big[y\log\hat{p} + (1-y)\log(1-\hat{p})\big] \]
-
多分类(标签为 one-hot 向量 \(\mathbf{y}\),预测分布为 \(\hat{\mathbf{p}}\)):
\[ \ell(x,\mathbf{y}) = -\sum_{k} y_k\log \hat{p}_k \]
对于 one-hot 标签,有 \(\ell = -\log \hat{p}_{\text{真实类别}}\)。
这正是深度学习中最常用的 交叉熵损失函数 。(DataCamp)
图片占位: 【图 1-2-5】二维示意图:真实分布 \(P\) 与预测分布 \(Q\) 的条形图,并在旁边标注 KL\((P|Q)\) 与交叉熵 \(H(P,Q)\) 的关系式。
1.2.5.3 在机器学习中的应用
监督学习中的损失函数 大部分分类模型都是在最小化“真实标签分布 P 与模型预测分布 Q 的交叉熵”——这在概率论层面就是让模型分布逼近真实数据分布,从而最小化 KL 散度。(DataCamp)
生成模型与分布拟合
- 在变分自编码器(VAE)中,我们显式使用 KL 散度约束“近似后验分布”与“先验分布”的差异;
- 在某些密度估计问题中,训练目标就是 \(\min_\theta D_{\mathrm{KL}}(P_{\text{data}}|P_\theta)\),从而让模型 \(P_\theta\) 逼近真实数据分布。
强化学习与策略优化 在策略梯度与 PPO 等算法中,常加入 KL 散度约束:
- \(D_{\mathrm{KL}}(\pi_{\text{old}}|\pi_{\text{new}})\) 太大说明新策略与旧策略差异过大,可能导致行为不稳定;
- 约束 KL 散度可以看作对更新步长的一种“几何”控制,确保策略逐步演化而不是剧烈跳变,这对真实机器人尤为重要。(Medium)
在具身智能中的意义
- 交叉熵提供了一个统一的度量,把“预测概率分布”和“真实结果”放在同一框架下比较,适用于视觉识别、语言理解、动作分类等各类子任务;
- KL 散度则更多地用来控制“模型的变化”和“策略分布的差异”,是把“安全与稳定”融入学习过程的数学工具。
本节从随机变量、期望方差出发,经由条件概率和贝叶斯更新,到常见分布,再到 MLE / MAP 以及 KL 散度与交叉熵,构成了后续整本书中所有概率建模与学习算法的基础。后面在讨论深度学习损失函数、强化学习策略优化、VLA 模型训练目标时,你会不断看到这些概念再次出现,并在机器人具身智能的具体场景中发挥作用。