评估具身代理模型泛化能力的限制：基于验证集

ACLMay, 2022

评估具身代理模型泛化能力的限制：基于验证集

On the Limits of Evaluating Embodied Agent Model Generalization Using Validation Sets

Hyounghun Kim, Aishwarya Padmakumar, Di Jin, Mohit Bansal, Dilek Hakkani-Tur

TL;DR研究提出了一种使用自然语言引导体现任务完成的模型，使用模块在更广阔的视野范围内学习选择下一步是否需要导航或操作，改进了现有基准数据集 ALFRED 上的表现。但是，最优模型在未见过的测试集分裂上表现不佳，突出了在机器学习任务中性能波动的需要修改基准设计以更好地考虑模型性能差异的需求。

Abstract

natural language guided embodied task completion is a challenging problem since it requires understanding natural language instructions, a

natural language embodied task completion transformer model navigation manipulation action

发现论文，激发创造

具身 BERT：一种用于具身、语言引导的视觉任务完成的 Transformer 模型

EmBERT 是一种基于 transformer 的模型，具有语言指导的目的完成能力。它是第一个能够成功处理 ALFRED 的历史记录、多模态的长时间跨度的 transformer 模型，同时也是第一个在 ALFRED 中使用对象导航目标的模型。

Aug, 2021

走向学习通用模型的行动导航

利用基于模式的指令将 LLMs 整合到具有身体导航功能的第一个通用模型 NaviLLM 中，该模型在各种任务中取得了最新的成果，并在 CVDN、SOON 和 ScanQA 上的性能达到了最新发展水平。

Dec, 2023

基于视觉理解规划的语言模型无需视觉输入推断详细计划

本文研究了如何将自然语言指令转化为虚拟环境中可行的多步骤行动序列，通过实证表明，结合一定的视觉信息和上下文语境，GPT-2 模型能够成功地生成金标准语句执行序列，为基于语言的虚拟代理提供了强大的视觉语义规划模块。

Sep, 2020

多任务多模态提示训练用于交互式具象任务完成

我们提出了一种统一的编码 - 解码模型，称为 Embodied MultiModal Agent (EMMA)，可以处理交互和具身任务，其中每个任务对目标完成做出贡献，取得了与类似模型相当的性能并在 Dialog-guided Task Completion (DTC) 中取得了新的最佳结果（36.81% 的成功率）用于评估 Alexa Arena 中的对话引导代理。

Nov, 2023

通过问答学习实体视觉导航和任务完成

该研究提出一种名为 ELBA 的模型，以增强具有互动人类能力的代理，通过问答实现动态获取附加信息，以提高任务完成性能，并在 TEACH 视觉对话导航和任务完成数据集上进行了评估。

Feb, 2023

如今是否已经到达目的地？学习跟随具身教学中的定位

本研究针对 “Embodied instruction following” 的挑战性问题，利用 ALFRED 基准测试，通过引入多个视角和培训模型预测空间关系的方式来解决目标定位和语言指令接地等关键难点，同时通过引入预训练的物体检测模块来提高语言接地，实验证明我们的方法可以超越基线模型性能。

Jan, 2021

无尽的机器人体感学习

通过大型语言模型，我们研究了在具有高度泛化能力的视觉行为克隆代理中，从视觉观察中进行复杂多模态机器人操作任务。我们提出了 NBCagent，一个语言条件下的持续学习行为克隆代理，在面对一系列具有挑战性的未知任务时，可以不断学习新的机器人操作技能的观察知识。我们设计了一个特定于技能的进化规划器来进行知识解耦，可以将新的技能特定知识不断嵌入到我们的 NBCagent 代理中。同时，我们还提出了一个技能共享的语义渲染模块和技能共享的表示蒸馏模块，有效地在语义和表示方面传递抗遗忘的技能共享知识，进一步解决了旧技能的灾难性遗忘问题。最后，我们设计了一个持续的机器人操作基准，并进行了一些昂贵的实验，证明了我们方法的显著性能。

Mar, 2024

放眼全局、再次解读：提高交互式指令跟随任务的性能

本文提出了一个基于多种新思想的新方法，通过两阶段指令解析和基于当前指令的分层注意力应用提供了准确的导航预测，从多个自我为中心的视角提取必要信息，可以以较高的精度在 ALFRED 挑战中胜出且取得了远高于以前相关研究的准确率。

Jun, 2021

语言模型遇上世界模型：具身体验增强语言模型

本文提出了一种通过 fine-tuning 使用世界模型使大型自然语言模型获得基于物理环境的知识和技能，以帮助解决模型在简单的推理和规划中的局限性，实验证明这种方法能够提高基本的 LM 在 18 项下游任务上的性能，尤其是 1.3B 和 6B 的小 LM。

May, 2023

视觉语言行为模型在具身人工智能中的调查

综合调查了深度学习、多模态模型、视觉 - 语言 - 动作模型、具身人工智能的快速发展。

May, 2024