未知环境中的身体指令遵循
ThinkBot 通过推理人类指令中的思维链来补全缺失的行动描述,以实现代理人成功完成人类目标的一种嵌入式指令遵循方法。在部分观察到的场景语义地图的基础上,通过对象本地化器来推断代理人实现复杂人类目标所需的相互作用对象的位置。在模拟环境中进行的大量实验证明,ThinkBot 在成功率和执行效率方面比最先进的嵌入式指令遵循方法有明显优势。
Dec, 2023
Socratic Planner 是第一个无需训练数据的零样本规划方法,在 Embodied Instruction Following 领域中通过自问自答将指令分解为子目标的结构信息,并通过密集视觉反馈动态调整计划,在 ALFRED 基准测试中取得了竞争性的性能,在需要高维推理的任务中表现出色。
Apr, 2024
通过交互式三维环境中的体验式概念学习者,机器人可以通过学习自然语言指令和人类示范,理解视觉概念、建立语义地图并规划行动,实现长期计划,且无需通过模拟数据获得地基准真的语义深度监督。
Apr, 2023
本文提出了一种层次化学习方法,包括高层的规划和记忆以及低层的房间导航和物品寻找,通过简单的合成语言为代理提供指令,同时使用另一个目标评估模块将指令映射到视觉观察中。在一个动态可配置的家庭环境中验证了该方法的有效性。
Nov, 2022
本文提出了一种利用多模态数据集进行物理约束的低水平嵌入式任务规划方法,并通过与 GPT-3.5 和 LLaVA 等方法进行对比实验,证明了该方法相比其他现有解决方案在普适的复杂环境中具有更高的成功率。
Jul, 2023
本研究针对 “Embodied instruction following” 的挑战性问题,利用 ALFRED 基准测试,通过引入多个视角和培训模型预测空间关系的方式来解决目标定位和语言指令接地等关键难点,同时通过引入预训练的物体检测模块来提高语言接地,实验证明我们的方法可以超越基线模型性能。
Jan, 2021
通过引入 CPEM(Context-aware Planner and Environment-aware Memory)将先前行动的情境信息与规划和维护对象的空间布局(例如,对象是否已经移动)相结合到感知模型中,改进了视觉导航和对象交互,在可见和不可见环境中实现了如题目要求的各项任务成功性能的最新水平。
Aug, 2023
在此研究中,提出了 OPEx 框架,它通过展示 Observer、Planner 和 Executor 的核心组成部分,深入分析了每个组件对 Embodied Instruction Following 任务性能的影响,并通过在 TextWorld 上部署多智能体对话策略来进一步提高性能。实验结果表明,引入大型语言模型和多智能体框架可以显著改善 Embodied Instruction Following 的结果。
Mar, 2024
该研究提出一种名为 ELBA 的模型,以增强具有互动人类能力的代理,通过问答实现动态获取附加信息,以提高任务完成性能,并在 TEACH 视觉对话导航和任务完成数据集上进行了评估。
Feb, 2023
本文提出了解决 Interactive Fleet Learning (分布转移) 和 Implicit Behavior Cloning (多模态) 问题的 Implicit Interactive Fleet Learning 方法,并通过模拟实验和物理实验表明其在人类辅助下具有更高的执行成功率和更高的回报。
Jun, 2023