术语表（Glossary）

数学与机器学习

术语	简述
线性变换	保持加法与数乘结构的映射。
特征分解	将矩阵表示为特征向量与特征值结构。
SVD	任意矩阵分解为 $U\Sigma V^\top$ 的方法。
概率分布	随机变量取值规律的数学描述。
最大似然估计（MLE）	选择使观测数据概率最大的参数。
最大后验估计（MAP）	在 MLE 基础上引入先验后的参数估计。
交叉熵	衡量预测分布与真实分布差异的损失。
梯度下降	沿负梯度方向迭代优化参数。
正则化	通过额外约束抑制过拟合。

深度学习与多模态

术语	简述
Backbone	负责提取通用特征的主干网络。
Self-Attention	序列内部位置间的加权信息聚合。
Cross-Attention	由一模态查询另一模态特征的注意力。
Tokenization	将连续输入离散化为 token 序列。
Prompt	用于条件化模型行为的输入前缀。
LoRA	低秩适配微调方法，参数高效。
QLoRA	低比特量化 + LoRA 的大模型微调方案。
蒸馏（Distillation）	用大模型监督小模型学习。
对齐（Alignment）	让模型行为符合任务和人类偏好。

强化学习与模仿学习

术语	简述
MDP	强化学习的标准问题建模框架。
策略（Policy）	状态到动作的映射。
价值函数	衡量状态或状态动作长期收益的函数。
优势函数	当前动作相对平均动作的收益增量。
Off-policy	用与当前策略不同的数据更新策略。
On-policy	用当前策略采样数据更新策略。
行为克隆（BC）	直接模仿专家动作。
DAgger	迭代采样并聚合专家标注缓解分布偏移。
RLHF	利用人类反馈对策略进行对齐。

机器人与系统工程

术语	简述
正运动学（FK）	从关节空间计算末端位姿。
逆运动学（IK）	从末端位姿求解关节配置。
雅可比矩阵	描述关节速度到末端速度的线性映射。
阻抗控制	控制末端力与位移动态关系的控制策略。
Teleoperation	人远程控制机器人采集示范。
Sim2Real	从仿真迁移到真实机器人的过程。
Safety Filter	在线过滤危险动作的安全机制。
MLOps	面向训练、部署、监控的工程体系。
Ablation Study	通过模块删除/替换分析贡献的实验。

VLA 专项

术语	简述
VLA	统一视觉、语言、动作的决策模型。
Instruction Conditioning	用语言指令条件化策略输出。
Action Head	将中间特征解码为动作的输出模块。
历史上下文编码	将过去观测与动作用于当前决策。
多机器人共享	一个模型适配多硬件形态的训练范式。
课程式训练（Curriculum）	按难度调度训练任务与数据。

使用建议

阅读时先看“术语定义”，再看“具体公式/代码实现”。
在项目文档里复用这些术语，减少团队沟通成本。
术语与符号联合使用时，优先参考 /Users/yang/Desktop/mdbook/src/Notation.md。