术语表(Glossary)
数学与机器学习
| 术语 | 简述 |
|---|---|
| 线性变换 | 保持加法与数乘结构的映射。 |
| 特征分解 | 将矩阵表示为特征向量与特征值结构。 |
| SVD | 任意矩阵分解为 $U\Sigma V^\top$ 的方法。 |
| 概率分布 | 随机变量取值规律的数学描述。 |
| 最大似然估计(MLE) | 选择使观测数据概率最大的参数。 |
| 最大后验估计(MAP) | 在 MLE 基础上引入先验后的参数估计。 |
| 交叉熵 | 衡量预测分布与真实分布差异的损失。 |
| 梯度下降 | 沿负梯度方向迭代优化参数。 |
| 正则化 | 通过额外约束抑制过拟合。 |
深度学习与多模态
| 术语 | 简述 |
|---|---|
| Backbone | 负责提取通用特征的主干网络。 |
| Self-Attention | 序列内部位置间的加权信息聚合。 |
| Cross-Attention | 由一模态查询另一模态特征的注意力。 |
| Tokenization | 将连续输入离散化为 token 序列。 |
| Prompt | 用于条件化模型行为的输入前缀。 |
| LoRA | 低秩适配微调方法,参数高效。 |
| QLoRA | 低比特量化 + LoRA 的大模型微调方案。 |
| 蒸馏(Distillation) | 用大模型监督小模型学习。 |
| 对齐(Alignment) | 让模型行为符合任务和人类偏好。 |
强化学习与模仿学习
| 术语 | 简述 |
|---|---|
| MDP | 强化学习的标准问题建模框架。 |
| 策略(Policy) | 状态到动作的映射。 |
| 价值函数 | 衡量状态或状态动作长期收益的函数。 |
| 优势函数 | 当前动作相对平均动作的收益增量。 |
| Off-policy | 用与当前策略不同的数据更新策略。 |
| On-policy | 用当前策略采样数据更新策略。 |
| 行为克隆(BC) | 直接模仿专家动作。 |
| DAgger | 迭代采样并聚合专家标注缓解分布偏移。 |
| RLHF | 利用人类反馈对策略进行对齐。 |
机器人与系统工程
| 术语 | 简述 |
|---|---|
| 正运动学(FK) | 从关节空间计算末端位姿。 |
| 逆运动学(IK) | 从末端位姿求解关节配置。 |
| 雅可比矩阵 | 描述关节速度到末端速度的线性映射。 |
| 阻抗控制 | 控制末端力与位移动态关系的控制策略。 |
| Teleoperation | 人远程控制机器人采集示范。 |
| Sim2Real | 从仿真迁移到真实机器人的过程。 |
| Safety Filter | 在线过滤危险动作的安全机制。 |
| MLOps | 面向训练、部署、监控的工程体系。 |
| Ablation Study | 通过模块删除/替换分析贡献的实验。 |
VLA 专项
| 术语 | 简述 |
|---|---|
| VLA | 统一视觉、语言、动作的决策模型。 |
| Instruction Conditioning | 用语言指令条件化策略输出。 |
| Action Head | 将中间特征解码为动作的输出模块。 |
| 历史上下文编码 | 将过去观测与动作用于当前决策。 |
| 多机器人共享 | 一个模型适配多硬件形态的训练范式。 |
| 课程式训练(Curriculum) | 按难度调度训练任务与数据。 |
使用建议
- 阅读时先看“术语定义”,再看“具体公式/代码实现”。
- 在项目文档里复用这些术语,减少团队沟通成本。
- 术语与符号联合使用时,优先参考
/Users/yang/Desktop/mdbook/src/Notation.md。