具身 BERT：一种用于具身、语言引导的视觉任务完成的 Transformer 模型

EMNLPAug, 2021

具身 BERT：一种用于具身、语言引导的视觉任务完成的 Transformer 模型

Embodied BERT: A Transformer Model for Embodied, Language-guided Visual Task Completion

Alessandro Suglia, Qiaozi Gao, Jesse Thomason, Govind Thattai, Gaurav Sukhatme

TL;DREmBERT 是一种基于 transformer 的模型，具有语言指导的目的完成能力。它是第一个能够成功处理 ALFRED 的历史记录、多模态的长时间跨度的 transformer 模型，同时也是第一个在 ALFRED 中使用对象导航目标的模型。

Abstract

language-guided robots performing home and office tasks must navigate in and interact with the world. Grounding language instructions against visual observations and actions to take in an environment is an open c

robots language-guided embert alfred object-centric navigation

发现论文，激发创造

评估具身代理模型泛化能力的限制：基于验证集

研究提出了一种使用自然语言引导体现任务完成的模型，使用模块在更广阔的视野范围内学习选择下一步是否需要导航或操作，改进了现有基准数据集 ALFRED 上的表现。但是，最优模型在未见过的测试集分裂上表现不佳，突出了在机器学习任务中性能波动的需要修改基准设计以更好地考虑模型性能差异的需求。

May, 2022

多任务多模态提示训练用于交互式具象任务完成

我们提出了一种统一的编码 - 解码模型，称为 Embodied MultiModal Agent (EMMA)，可以处理交互和具身任务，其中每个任务对目标完成做出贡献，取得了与类似模型相当的性能并在 Dialog-guided Task Completion (DTC) 中取得了新的最佳结果（36.81% 的成功率）用于评估 Alexa Arena 中的对话引导代理。

Nov, 2023

通过多模态部分对齐进行基于视觉信息的 BERT 表示扩展

通过将 BERT 模型的上下文表示与视觉信息进行融合，GroundedBERT 方法在语言任务中明显优于基准模型，解决了语言模型在视觉语境处理中的限制问题。

Dec, 2023

EmbodiedGPT: 基于身体思维链的视觉 - 语言预训练

介绍了 EmbodiedGPT，一种多模式基础模型，用于具有多模式理解和执行能力的具体智能体，可在物理环境中计划和执行动作序列，从而显着提高了具体控制任务的成功率。

May, 2023

在 3D 环境中探索与描述：基于身体感知的视觉字幕生成

当前的视觉说明模型假设图像是完整呈现场景的完美捕捉，然而在真实世界场景中一个图像可能没有提供良好的视角，从而限制了对细粒度场景的理解。为了克服这一限制，我们提出了一项名为 “实体说明” 的新任务，将视觉说明模型与导航能力相结合，使其能够主动探索场景，并减少来自次优视角的视觉模糊。我们构建了一个包含 10K 个混乱物体的 3D 场景和每个场景三个注释段落的 ET-Cap 数据集，以支持该任务。我们提出了一个级联实体说明模型（CaBOT），它由导航器和说明器组成，用于处理这个任务。广泛的实验证明我们的模型优于其他精心设计的基线模型。我们的数据集、代码和模型可在此链接获得。

Aug, 2023

PaLM-E：一个实体多模语言模型

研究提出了一种具有体感的语言模型，其可以将现实世界的传感器和语言模型直接结合起来，从而实现语言和感知之间的链接，并且在多个机器人任务、图像问题解答和字幕生成等方面取得了良好的表现。

Mar, 2023

通过问答学习实体视觉导航和任务完成

该研究提出一种名为 ELBA 的模型，以增强具有互动人类能力的代理，通过问答实现动态获取附加信息，以提高任务完成性能，并在 TEACH 视觉对话导航和任务完成数据集上进行了评估。

Feb, 2023

基于大语言模型的具身化任务规划

本文提出了一种利用多模态数据集进行物理约束的低水平嵌入式任务规划方法，并通过与 GPT-3.5 和 LLaVA 等方法进行对比实验，证明了该方法相比其他现有解决方案在普适的复杂环境中具有更高的成功率。

Jul, 2023

VisualBERT：一种用于视觉和语言的简单高效基准线模型

VisualBERT 是一个简单灵活的框架，由一系列 Transformer 层组成，可以对输入的文本和相关的图像区域进行自我注意力对齐。该论文提出了两种针对预先训练 VisualBERT 的视觉语言模型目标，经过在四项视觉语言任务上的实验表明，VisualBERT 的表现优于或与最先进的模型不相上下，同时具有显著的简单性。进一步的分析表明，VisualBERT 可以将语言元素与图像区域相关联，而不需要任何明确的监督，并且甚至可以关注句法关系，例如跟踪动词与相应参数图像区域之间的关联。

Aug, 2019

视觉语言导航的史诗变压器

本文提出了一种名为 Episodic Transformer (E.T.) 的多模态 Transformer，可解决使用自然语言指令进行交互和导航所面临的挑战。通过采用合成指令来改善训练和决策，使得 E.T. 能够处理历史信息，以实现复合式任务，并在具有挑战性的 ALFRED 基准测试中取得了 38.4% 和 8.5% 的任务成功率。

May, 2021