11.4 写作与展示

本节讨论的不是“怎么做实验”，而是“怎样把已经做好的工作讲清楚”：写成论文、画成图、讲成报告，并且在团队中高效协作。对于具身智能方向的研究生而言，这几乎决定了你的工作能否真正被看到、被复现、被认可。

11.4.1 研究报告与论文结构（问题、方法、实验、讨论）

学习导航

本章主题：11.4.1 研究报告与论文结构（问题、方法、实验、讨论）

前置知识：建议至少完成第 1-10 章关键章节。

建议用时：75-95 分钟

阅读顺序：先看概念框架，再看公式/代码，最后做自测。

现代科学论文普遍采用 IMRaD 结构：Introduction（引言 / 问题）、Methods（方法）、Results（结果）、Discussion（讨论）。(The Writing Center) 不同期刊会有额外小节（相关工作、实验设置等），但核心逻辑是一致的：把科学探索过程压缩成一条清晰的故事线。

11.4.1.1 问题动机

“问题动机”往往对应引言部分。它要完成三件事：

1.放置背景（Context）：在具身智能领域，背景可以是：

机器人操作任务越来越复杂（家庭服务、多步骤装配等）；
VLA 模型在视觉、语言、动作之间的统一建模正在成为趋势；
现实部署时仍然存在样本效率、鲁棒性和安全性问题。 2.指出缺口（Gap）：不是简单地说“尚缺研究”，而是具体指出：
现有方法在什么场景失败？例如只能处理短时操作，无法应对长时任务；
现有数据集 / 评测标准有什么盲点？比如只在仿真中评测，缺现实机器人结果；
现有模型在什么维度（样本效率、泛化、可解释性）明显不够好。 3.提出问题与贡献（Question & Contribution）：用一两句明确写出你要解决的问题，例如：

“我们研究如何让 VLA 模型在有限真实数据下，仍能泛化到新的桌面整理任务。” 随后用条目总结你的主要贡献（模型、数据集、理论分析等），让审稿人一眼看懂你做了什么。

写“问题动机”时需要注意：

+避免空泛口号：诸如“人工智能对人类社会很重要”这种句子对任何论文都成立，但不能帮助读者理解你的具体研究位置。 +尽量贴近“场景”：具身智能的天然优势是有具体物理场景，可以用 1–2 句描述一个真实情境（如“家庭机器人整理餐桌”），读者能立刻代入。 +适度关联前人工作：可以先概括几类主流方法，再指出它们的共同局限，将详细的 Related Work 放到单独小节展开。

（插图占位： 【图 11-4-1：具身智能论文的“背景–缺口–贡献”三段式结构示意图】 用简单框图展示：现实场景 → 现有方法 → 存在问题 → 本文方案与贡献。）

11.4.1.2 方法描述

“方法”部分要让读者既能理解你在做什么，又有机会复现。在具身智能论文中，常见的结构是：

1.整体框架图 + 概述先用一张系统框图总览：输入（多模态观测、语言指令、机器人状态）→ VLA 模型结构 → 输出动作 → 与机器人控制器的接口。用一小节（如 “Overview”）用文字走一遍图中信息流，不涉及细节，只讲模块之间如何协同。 2.模型结构与关键思想

分别说明视觉编码、语言编码、历史轨迹编码、动作解码等模块；
对具身智能特有的设计要重点解释，例如：
- 动作 token 的离散化方式；
- 如何在 Transformer 中融合视觉与语言（Cross-Attention、早期/中期融合等）；
- 如何兼容多机器人、多任务。
若提出了新的损失函数、正则项、训练范式（如 BC + RL + 自监督联合训练），给出清晰公式和符号表，保持全篇符号一致。(queensu.ca) 3.训练与数据细节（但不变成“实验”）在具身智能论文中，一些训练细节往往写在方法或“Implementation Details”小节：
使用哪些数据源（开源数据集 + 自建数据）；
预训练与微调的阶段划分；
重要超参数量级（学习率范围、batch size 数量级、训练总步数）。细节不必穷尽，但要足够让他人可以复现主结果。 4.系统与硬件设置对具身智能尤其重要：
说明所用机器人平台（机械臂型号、自由度、末端执行器类型），传感器（相机类型、安装方式）；
若涉及手眼标定、控制频率等关键工程设置，可在方法末尾概述，详细信息可放附录。

（插图占位： 【图 11-4-2：典型 VLA 具身智能系统结构框图（视觉、语言、动作与控制器的关系）】）

11.4.1.3 实验结果

IMRaD 中的“结果”部分，主要任务是把数据呈现清楚，而不做过度解读，解读放到讨论。(The Writing Center)

在具身智能领域，实验结果一般包括几层：

1.实验设置简述在 Results 开头简要提醒：

有哪些任务场景（抓取、分类搬运、开门等）；
使用哪些数据集 / 仿真环境 / 真实机器人；
评价指标是什么（成功率、路径长度、完成时间、安全约束违反次数等）。 2.核心定量结果通常以表格 + 若干曲线图呈现：
与主流 baseline（例如 BC-only、纯 RL、无语言版本等）进行对比；
在多任务、多物体、多环境条件下拆分指标；
如果有消融实验（去掉语言条件、去掉历史轨迹、换 Visual backbone），建议用单独表格列出。绘图时要遵守“图形完整性”原则，避免通过截断坐标轴等方式夸大差异。(PMC) 3.定性结果与可视化
展示典型任务执行序列（关键帧截图）；
展示注意力热图、动作分布等，帮助读者理解模型在“看哪里、做什么”；
展示成功和失败案例，并在讨论部分进一步分析原因。 4.泛化与鲁棒性实验对具身智能来说，泛化常是审稿人关注重点：
新物体、新布局、新指令的表现；
仿真到现实（Sim2Real）的迁移结果；
噪声、延迟、遮挡条件下的表现。

结果部分的写作风格应尽量中性、克制，少用“极大地、革命性”等夸张形容词，让数据自己说话。

11.4.1.4 讨论启示

“讨论”是从结果出发，回到你在引言中提出的问题，回答：这些结果说明了什么？有什么局限？对未来有什么启发？(sokogskriv.no)

可以考虑以下结构：

1.核心发现的总结用 2–3 句话高度概括：

在什么场景下你的方法明显优于 baseline；
哪些能力（如长时规划、语言理解、多机器人泛化）得到显著提升。 2.为什么会这样：机制与直觉尝试给出合理解释，而不仅是重复数字，例如：
多模态预训练让模型在新任务上表现更好，是因为视觉–语言对齐减少了“找错物体”的错误；
行为克隆 + RL 的组合在样本效率上优于纯 RL，是因为 BC 提供了合理的初始策略。 3.局限性与失败案例对具身智能尤其重要：
指出在什么任务上仍然失败（如复杂接触操作、强遮挡）；
分析原因（感知不稳定、控制接口延迟、训练数据分布偏差）；
能适度提出你计划如何解决，但不要在这篇文章里承诺太多。 4.对领域的启示与未来方向把你的工作放回到“通用机器人 / 具身智能”的大图景中：
你的结果是否支持某种建模路线（例如“统一 Transformer”确实在多任务上更有优势）；
对数据集设计、评测协议、系统架构的启示；
未来可以如何扩大到更复杂环境、多机器人协作等（可和本书第 12 章的前沿方向呼应）。

11.4.2 图表与可视化的表达方式

图表的作用，是把长篇的数字和文字压缩成一眼可见的结构。数据可视化研究强调：图形应该以最少的“视觉噪声”，准确传达尽可能多的有用信息，包括避免所谓“chart junk”（为装饰而存在的多余元素）。(Luís Cruz)

具身智能论文里的图表常包括：

训练曲线 / 学习曲线；
成功率、奖励等统计曲线；
对比 baseline 的指标表格；
机器人执行任务的关键帧、轨迹示意等。

11.4.2.1 曲线图

曲线图适合表达随时间或某个变量变化的趋势，比如：

训练步数 vs 成功率 / 回报；
任务难度（物体数量、遮挡程度） vs 成功率；
不同方法在同一任务上的学习速度对比。

设计曲线图时，可以遵循以下原则：(SPIE Digital Library)

1.坐标轴信息完整

轴名称 + 单位要写清楚，例如 “Environment Steps (×10⁵)”、“Success Rate (%)”；
若坐标轴截断或采用对数坐标，要在图上明确标明，否则容易误导。 2.曲线数量适中，易于区分
一张图中最好不要超过 4–5 条曲线；
使用不同线型（实线 / 虚线 / 点线）或色彩，配合清晰图例（legend）；
同一篇文章内尽量保持颜色含义一致（例如蓝色永远代表你的主方法）。 3.呈现波动与不确定性
可以绘制平均值 + 标准差（或标准误差）带状区域，让读者看到结果的稳定性；
避免只画单次运行的锯齿曲线，可在多次运行基础上平滑（移动平均）并注明处理方式。 4.图注（caption）要“可独立阅读” 很多写作指南建议：读者应该只看图和图注，也能大致理解结果含义。(SPIE Digital Library) 图注中应包含：
图的目的（比较什么 vs 什么）；
实验设定的关键信息；
主要观察结论（例如“我们的方法在大多数步数段均明显优于传统 BC”。）

（插图占位： 【图 11-4-3：不同方法在机器人抓取任务上的训练曲线对比示意图】 横轴为环境步数，纵轴为成功率，多条曲线表示不同算法。）

11.4.2.2 表格

表格适合展示离散的、多维的最终结果对比，例如：

多个任务、多种方法、多种指标（成功率、耗时、能耗）的对照；
消融实验不同配置（有 / 无语言条件、有 / 无历史轨迹）的结果；
不同机器人平台上的性能。

设计表格时，建议注意：(queensu.ca)

1.结构清晰

行一般是方法 / 配置，列是任务或指标；
对于多任务多指标，可以分块或用分组表头（multi-level header）。 2.突出重点
用粗体标记最优值，下划线或斜体标记次优值；
可以增加“平均分”或“排名”一列，帮助读者快速形成整体印象。 3.必要的统计信息
对关键结果提供标准差或置信区间；
若有统计显著性检验（如 t-test），可在表中用符号注明（例如“*”表示 p < 0.05）。 4.表注说明变量和设定
在表格下方用简短表注解释缩写（如 “SR=Success Rate”）、实验设定（如“每个任务评估 50 次尝试”）；
若空间有限，可以在附录中放完整表格，在正文展示简化版。

（插图占位： 【表 11-4-1：多任务具身操作中不同 VLA 模型成功率对比示意表】）

11.4.2.3 图像示例

对于具身智能论文，图像示例可以让读者直观看到机器人在做什么，弥补纯文字和数字难以传达的细节。例如：

1.任务执行序列

选取 3–6 张关键帧（初始、接近、抓取、放置等）拼成一行；
在每帧下标注时间步和动作摘要（如“t=5，末端执行器向左平移”）。 2.轨迹与注意力可视化
在图像上叠加末端执行器轨迹、抓取点、避障路径；
可视化模型内部注意力：比如在图像上用热图表示语言 token “red block” 所对应的视觉注意区域。 3.成功与失败对比
并列展示成功和失败的两个序列，帮助讨论模型在什么情况下容易失误（例如光照强烈反光、物体遮挡严重）。

在设计这些图像时，可以借鉴数据可视化的一个基本原则：在不牺牲准确性的前提下，尽量减少多余装饰，突出真正承载信息的部分。(GeeksforGeeks)

（插图占位： 【图 11-4-4：机器人执行“将红色积木放入盒子”的关键帧序列示意图】 【图 11-4-5：VLA 模型在不同语言指令下的视觉注意力热力图示意图】）

11.4.3 组会报告与学术汇报的准备

写论文是静态表达，报告与汇报则是动态表达。二者的核心逻辑类似：讲清楚问题、方法和结果；但报告需要在有限时间内，让不同背景的听众跟得上你的节奏。

11.4.3.1 针对听众

准备报告前，先问自己三个问题：

1.听众是谁？

组会：大多是同门、导师，熟悉具身智能和你所在项目的背景，可以讲得更技术、更细；
学术会议：来自不同子领域（控制、视觉、NLP、强化学习），对你具体系统细节不熟，但对方法思想和实验设计很敏感；
企业或跨学科听众：可能更关心应用前景、系统稳定性和可落地性，而不是公式推导。 2.他们已经知道什么？工程演讲指南通常建议：开头几分钟要明确说明你的目标和假定背景。(米苏里科技大学)
对组会报告，可以假定大家了解基本的 RL / BC / Transformer；
对跨学科报告，则需要简要解释具身智能、VLA 和机器人任务设定。 3.他们最关心什么？
导师：你是否有实质性进展、遇到什么阻碍、下一步计划是什么；
程序委员会 / 会议听众：你的方法真的解决了一个清晰的问题吗？实验是否充分？
企业听众：系统在真实场景中表现如何？硬件成本和工程复杂度如何？

根据这些判断，你可以调整报告中“理论细节 vs 实验 vs 工程实现”的比例。

11.4.3.2 讲稿结构

一次典型的技术报告（10–15 分钟）可以采用以下结构：(engineering.purdue.edu)

1.标题与动机（1–2 张）

标题页：题目、作者、机构、机器人平台照片（增加直观印象）；
动机页：一张真实场景图片或视频截图，说明“我们想让机器人完成什么任务”，配合 2–3 句话说明现有方法的问题。 2.问题定义与挑战（1–2 张）
用图示说明任务设定：输入、输出、环境；
列出 2–3 个核心挑战，例如：多模态对齐、长时规划、Sim2Real 差距。 3.方法概览与关键模块（3–4 张）
打一张总框图，类似论文方法小节中的系统图；
每个关键模块一张图，例如“视觉编码器”、“语言条件模块”、“动作解码器”；
对具身智能系统，可以单独介绍“如何与真实机器人控制器接口”。 4.实验与结果（3–4 张）
1 页总结实验设置（任务、数据、指标）；
1–2 页展示关键定量结果（表格或曲线），突出结论性的比较；
1–2 页展示关键定性结果（任务执行视频 / 截图）。 5.讨论、局限与未来工作（1–2 张）
一页总结“我们学到了什么”（3 个要点）；
一页说明局限与下一步计划，例如“尚不支持多机器人协同”、“真实环境样本仍偏少”。 6.总结与提问（1 张）
用 3 条 bullet 总结贡献；
明确写出“欢迎提问”，并保留时间。

实际准备时，可以粗略以“1 分钟 ≈ 1 张内容丰富的幻灯片”来估计总页数。

（插图占位： 【图 11-4-6：具身智能项目技术报告的示例目录结构】）

11.4.3.3 演讲技巧

技术演讲的目标不是表演，而是让尽可能多的听众真正理解你的工作。一些通用的工程演讲建议在机器人场景同样适用：(米苏里科技大学)

1.节奏与时间控制

正式场合的 10–12 分钟报告，建议提前至少完整试讲 2–3 次，计时；
对每一页幻灯片有一个明确的“核心句子”，讲完这句就可以翻页，避免在某一页停留过久；
避免在最后几分钟仓促跳过关键实验，只能匆匆给出结论。 2.语言与表达
使用短句 + 明确主语，避免长而复杂的从句；
尽量少念 PPT 上的文字，而是用自己的话解释图和公式；
对于复杂公式，只讲它“代表什么关系”，不必逐项朗读。 3.图像与动画
具身智能报告非常适合带视频或动画演示，但应准备好备用方案（静态截图 + 说明），以防现场播放失败；
动画要简洁：比如展示轨迹演化、注意力随时间的变化，而不是花哨的转场效果。 4.面对提问
遇到没有想过的问题，可以先复述问题确认理解，再用你已有的分析框架尝试回答；
对于暂时无法回答的问题，可以坦诚说明：“我们还没有在那个场景下测试，但根据目前结果，我的直觉是……”，并可以记录下来作为后续工作线索。 5.线上报告对远程会议，要特别注意：
提前测试网络与音频设备；
减少 PPT 上过小的文字，保证在小窗口里仍可看清图和公式；
使用激光笔/鼠标标记关键区域，帮助听众跟随。

11.4.4 与导师和同组同学的协作方式

具身智能项目通常是多人协作的大工程：模型、仿真、硬件、系统集成、数据工程等等。良好的协作能让你事半功倍，糟糕的协作则可能让好想法被埋没。

11.4.4.1 定期沟通

研究生与导师、组员之间如果缺乏结构化沟通，很容易出现“方向偏了很久才发现”的情况。研究生–导师沟通的经验研究普遍建议：定期会议 + 明确记录 + 可执行的下一步任务。(howtowriteaphd.org)

可以参考以下做法：

1.固定节奏

与导师至少保持每 1–2 周一次的正式沟通；
组内项目（尤其是涉及机器人实物操作）可以再单独有每周例会，汇报数据采集和系统状态。 2.会前准备
用一页或一两张幻灯片总结自上次会议以来的进展：完成了哪些实验、发现了哪些问题；
列出你需要讨论的关键问题（例如“动作离散化方案是否需要调整”、“真实机器人实验的安全限制如何设置”），避免会议变成单向汇报。 3.会后记录
会议结束后，整理一份简短的 Meeting Notes，通过邮件或协作平台发给导师和组员：
- 本次会议的结论（例如“优先在仿真验证多机器人场景”）；
- 明确分配的任务和 deadline；
- 需要进一步查阅文献或实验验证的开放问题。这类做法被多篇指导文档视为缓解沟通误差的有效方式。(howtowriteaphd.org)

11.4.4.2 协作开发

具身智能项目往往涉及大量代码、配置和实验脚本。良好实践包括：(Nature)

1.版本控制与代码组织

使用 Git 等版本控制工具，建立统一的代码仓库；
按模块组织目录（data、models、training、robot_interface、evaluation 等），避免“一个巨大脚本包打天下”；
在 README 中写清楚“怎样从零跑起一个最小示例”。 2.统一编码规范
制定或采用现有的代码风格规范（如 Python 的 PEP 8），并在 CI（持续集成）中自动检查；
对涉及机器人控制的关键模块（安全检查、力矩限制等），要求至少一名组员进行 code review，以减少隐蔽 bug。 3.实验记录与可复现性
使用实验管理工具或简单的日志文件记录每次实验的配置（超参数、数据版本、代码提交哈希）；
对关键结果建立“再现脚本”，保证新成员或审稿人有机会复现实验。 4.软硬件协作在具身智能项目中，一部分同学偏算法，一部分偏硬件：
建议建立清晰的接口文档（例如动作命令和传感器数据的消息格式），减少反复对接；
硬件同学在更改机械臂或相机配置时，应同步更新标定和系统参数，并通知算法同学。

良好的协作开发不仅提高效率，也是提升研究可复现性与可信度的重要途径。(Nature)

11.4.4.3 互相审阅

互相审阅包括：论文草稿、报告幻灯片、代码与实验设计。它的价值主要体现在三个方面：

1.提前发现问题

同门往往比审稿人更早看到你的初稿；
他们可以指出“这部分的符号定义看不懂”、“图 3 和图 4 的颜色含义不一致”等细节问题，也能指出实验缺失之处。 2.提升表达质量
邀请对该方向不太熟悉的同学阅读你的摘要和引言，如果他们能大致复述你的工作，你的表达就基本合格；
对于英文论文，请至少让一位写作较强的同学帮忙润色语法与措辞。 3.澄清贡献与署名
在涉及多位同学合作的大项目中，应尽早、透明地讨论各自贡献与论文作者顺序，避免后期产生分歧；(Academia Stack Exchange)
在 code review 和实验设计审阅中，明确哪些贡献应被计入论文署名，哪些属于日常技术支持。

互相审阅的态度也很重要：

给别人意见时，尽量具体、建设性（指出问题 + 给出可选改进方向）；
接受意见时，不要把批评当成“针对个人”，而是把其视作帮你提升文章质量和说服力的免费资源。

本节从论文结构、图表设计、口头报告到团队协作，构成了具身智能研究中“表达与沟通”的完整闭环。前面各章教你如何把机器人做“聪明”，而本节的目标，是让这些聪明真正被世界看见、理解并在此基础上继续演化。

本章小结与自测

三行小结

本章把学习内容转为项目与科研实践能力。
重点是复现能力、实验设计与技术表达。
学完后应能独立完成小规模研究闭环。

检查题

用你自己的话总结本章最核心的一个公式/机制。
给出一个“如果要落地到项目里，你会怎么用”的具体例子。

常见误区

复现时跳过最小可运行基线。
不做消融直接下结论。
展示材料只给结果不给方法。

公式到代码（最小示例）

ablation = [
    {"cfg": "full", "sr": 0.78},
    {"cfg": "-language", "sr": 0.61},
]
for row in ablation:
    print(row["cfg"], row["sr"])

Robotic Embodied Intelligence - From Zero to Hero