Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

术语表(Glossary)

数学与机器学习

术语简述
线性变换保持加法与数乘结构的映射。
特征分解将矩阵表示为特征向量与特征值结构。
SVD任意矩阵分解为 $U\Sigma V^\top$ 的方法。
概率分布随机变量取值规律的数学描述。
最大似然估计(MLE)选择使观测数据概率最大的参数。
最大后验估计(MAP)在 MLE 基础上引入先验后的参数估计。
交叉熵衡量预测分布与真实分布差异的损失。
梯度下降沿负梯度方向迭代优化参数。
正则化通过额外约束抑制过拟合。

深度学习与多模态

术语简述
Backbone负责提取通用特征的主干网络。
Self-Attention序列内部位置间的加权信息聚合。
Cross-Attention由一模态查询另一模态特征的注意力。
Tokenization将连续输入离散化为 token 序列。
Prompt用于条件化模型行为的输入前缀。
LoRA低秩适配微调方法,参数高效。
QLoRA低比特量化 + LoRA 的大模型微调方案。
蒸馏(Distillation)用大模型监督小模型学习。
对齐(Alignment)让模型行为符合任务和人类偏好。

强化学习与模仿学习

术语简述
MDP强化学习的标准问题建模框架。
策略(Policy)状态到动作的映射。
价值函数衡量状态或状态动作长期收益的函数。
优势函数当前动作相对平均动作的收益增量。
Off-policy用与当前策略不同的数据更新策略。
On-policy用当前策略采样数据更新策略。
行为克隆(BC)直接模仿专家动作。
DAgger迭代采样并聚合专家标注缓解分布偏移。
RLHF利用人类反馈对策略进行对齐。

机器人与系统工程

术语简述
正运动学(FK)从关节空间计算末端位姿。
逆运动学(IK)从末端位姿求解关节配置。
雅可比矩阵描述关节速度到末端速度的线性映射。
阻抗控制控制末端力与位移动态关系的控制策略。
Teleoperation人远程控制机器人采集示范。
Sim2Real从仿真迁移到真实机器人的过程。
Safety Filter在线过滤危险动作的安全机制。
MLOps面向训练、部署、监控的工程体系。
Ablation Study通过模块删除/替换分析贡献的实验。

VLA 专项

术语简述
VLA统一视觉、语言、动作的决策模型。
Instruction Conditioning用语言指令条件化策略输出。
Action Head将中间特征解码为动作的输出模块。
历史上下文编码将过去观测与动作用于当前决策。
多机器人共享一个模型适配多硬件形态的训练范式。
课程式训练(Curriculum)按难度调度训练任务与数据。

使用建议

  1. 阅读时先看“术语定义”,再看“具体公式/代码实现”。
  2. 在项目文档里复用这些术语,减少团队沟通成本。
  3. 术语与符号联合使用时,优先参考 /Users/yang/Desktop/mdbook/src/Notation.md