未知环境中的身体指令遵循

Jun, 2024

Embodied Instruction Following in Unknown Environments

Zhenyu Wu, Ziwei Wang, Xiuwei Xu, Jiwen Lu, Haibin Yan

TL;DR通过利用多模态大型语言模型，我们构建了一个层次化的具有高级任务规划器和低级探索控制器的嵌入指令跟随框架，该方法可以在未知环境中通过在已知可见线索的基础上生成可行的计划来完成抽象指令，实验结果表明，在大型房屋场景中，我们的方法在 204 个复杂的人类指令（如做早餐和整理房间）中实现了 45.09% 的成功率。

Abstract

Enabling embodied agents to complete complex human instructions from natural language is crucial to autonomous systems in household services. Conventional methods can only accomplish →

embodied agents human instructions unknown environment embodied instruction following feasible plans

发现论文，激发创造

思考机器人：带有思维链推理的身体化指令跟随

ThinkBot 通过推理人类指令中的思维链来补全缺失的行动描述，以实现代理人成功完成人类目标的一种嵌入式指令遵循方法。在部分观察到的场景语义地图的基础上，通过对象本地化器来推断代理人实现复杂人类目标所需的相互作用对象的位置。在模拟环境中进行的大量实验证明，ThinkBot 在成功率和执行效率方面比最先进的嵌入式指令遵循方法有明显优势。

Dec, 2023

苏格拉底规划器：基于问题引导的零样本规划模型与实体指令跟随

Socratic Planner 是第一个无需训练数据的零样本规划方法，在 Embodied Instruction Following 领域中通过自问自答将指令分解为子目标的结构信息，并通过密集视觉反馈动态调整计划，在 ALFRED 基准测试中取得了竞争性的性能，在需要高维推理的任务中表现出色。

Apr, 2024

具体概念学习器：通过遵循指示自我监督学习概念和映射

通过交互式三维环境中的体验式概念学习者，机器人可以通过学习自然语言指令和人类示范，理解视觉概念、建立语义地图并规划行动，实现长期计划，且无需通过模拟数据获得地基准真的语义深度监督。

Apr, 2023

通过指导提升结构化探索实现物体导航

本文提出了一种层次化学习方法，包括高层的规划和记忆以及低层的房间导航和物品寻找，通过简单的合成语言为代理提供指令，同时使用另一个目标评估模块将指令映射到视觉观察中。在一个动态可配置的家庭环境中验证了该方法的有效性。

Nov, 2022

基于大语言模型的具身化任务规划

本文提出了一种利用多模态数据集进行物理约束的低水平嵌入式任务规划方法，并通过与 GPT-3.5 和 LLaVA 等方法进行对比实验，证明了该方法相比其他现有解决方案在普适的复杂环境中具有更高的成功率。

Jul, 2023

如今是否已经到达目的地？学习跟随具身教学中的定位

本研究针对 “Embodied instruction following” 的挑战性问题，利用 ALFRED 基准测试，通过引入多个视角和培训模型预测空间关系的方式来解决目标定位和语言指令接地等关键难点，同时通过引入预训练的物体检测模块来提高语言接地，实验证明我们的方法可以超越基线模型性能。

Jan, 2021

上下文感知规划与环境感知记忆对于指令跟随的具身化智能体

通过引入 CPEM（Context-aware Planner and Environment-aware Memory）将先前行动的情境信息与规划和维护对象的空间布局（例如，对象是否已经移动）相结合到感知模型中，改进了视觉导航和对象交互，在可见和不可见环境中实现了如题目要求的各项任务成功性能的最新水平。

Aug, 2023

OPEx: 对体现教学指导中面向语言模型的组件式代理的分析

在此研究中，提出了 OPEx 框架，它通过展示 Observer、Planner 和 Executor 的核心组成部分，深入分析了每个组件对 Embodied Instruction Following 任务性能的影响，并通过在 TextWorld 上部署多智能体对话策略来进一步提高性能。实验结果表明，引入大型语言模型和多智能体框架可以显著改善 Embodied Instruction Following 的结果。

Mar, 2024

通过问答学习实体视觉导航和任务完成

该研究提出一种名为 ELBA 的模型，以增强具有互动人类能力的代理，通过问答实现动态获取附加信息，以提高任务完成性能，并在 TEACH 视觉对话导航和任务完成数据集上进行了评估。

Feb, 2023

来自不同人类监管者的隐式交互式车队学习

本文提出了解决 Interactive Fleet Learning (分布转移) 和 Implicit Behavior Cloning (多模态) 问题的 Implicit Interactive Fleet Learning 方法，并通过模拟实验和物理实验表明其在人类辅助下具有更高的执行成功率和更高的回报。

Jun, 2023