基于 Transformer 的大规模预训练体验对话本地化

Oct, 2022

基于 Transformer 的大规模预训练体验对话本地化

Transformer-based Localization from Embodied Dialog with Large-scale Pre-training

Meera Hahn, James M. Rehg

TL;DR本研究提出了一种基于 LED-Bert 结构的 Localization via Embodied Dialog 方法，使用基于图的场景表示来预测观察者在地图上的最终位置，实验结果表明该方法优于之前的基准方法。

Abstract

We address the challenging task of localization via embodied dialog (LED). Given a dialog from two agents, an Observer navigating through an unknown environment and a Locator who is attempting to identify the Obs

localization embodied dialog led-bert graph-based scene representation prediction

发现论文，激发创造

通过具身对话进行本体定位

本文提出了一个名为 way 的数据集，其中包含了约 6k 个人类－人类对话，用于合作式定位任务。本文着重研究基于嵌入式对话 (LED) 的定位任务，并提供了一个强有力的基线模型和不同建模选择的详细分析。最佳模型在处理未知场景时实现了 32.7% 的预测准确率，人类处理此类任务的预测准确率为 70.4%。

Nov, 2020

DiaLoc：一个迭代式的具身对话定位方法

DiaLoc 是一种新的基于对话的定位框架，通过迭代细化位置预测来可视化每次对话后的当前姿态，有效地利用多模态数据进行分步定位。DiaLoc 在单次拍摄（ValUnseen 准确率 + 7.08%）和多次拍摄（ValUnseen 准确率 + 10.85%）设置中取得了最先进的结果，缩小了模拟与实际应用之间的差距，为未来的协作定位和导航研究打开了新的大门。

Mar, 2024

具身 BERT：一种用于具身、语言引导的视觉任务完成的 Transformer 模型

EmBERT 是一种基于 transformer 的模型，具有语言指导的目的完成能力。它是第一个能够成功处理 ALFRED 的历史记录、多模态的长时间跨度的 transformer 模型，同时也是第一个在 ALFRED 中使用对象导航目标的模型。

Aug, 2021

DialogueBERT：基于自监督学习的对话预训练编码器

本文介绍了一种基于 BERT 的上下文对话编码器 DialogueBERT，通过五个自超监督学习预训练任务学习对话表述的特殊性，并整合了四个不同的输入嵌入来捕捉话语之间的关系，该模型在意图识别、情感识别和命名实体识别等三个下游对话理解任务中表现出优异性能。

Sep, 2021

BEV-Locator: 一种使用多视角图像的端到端视觉语义定位网络

本文提出了一种基于多视角摄像机图像的端到端视觉语义定位神经网络 BEV-Locator，并通过大规模 nuScenes 和 Qcraft 数据集的实验结果证明该方法能够有效地关联来自多视角图像和全局语义地图的跨模态信息，可以在多种场景下估计车辆姿态，实验结果表明其横向、长向平移和航向角度的平均绝对误差分别为 0.052m，0.135m 和 0.251 度。

Nov, 2022

通过问答学习实体视觉导航和任务完成

该研究提出一种名为 ELBA 的模型，以增强具有互动人类能力的代理，通过问答实现动态获取附加信息，以提高任务完成性能，并在 TEACH 视觉对话导航和任务完成数据集上进行了评估。

Feb, 2023

ENTL：具身导航轨迹学习器

ENTL 是一种提取具有长序列表示来实现躯体导航的方法，其将世界建模、定位和模仿学习统一为单一的序列预测任务，而模型则使用当前状态和动作作为条件预测未来状态的向量量化预测进行训练，还可以实现定位和未来帧预测等辅助任务，而其通用结构可用于多种具有挑战性的躯体任务，此方法的一个关键特性是模型是在没有明确的奖励信号的情况下进行预先训练的，因此可适用于多个任务和环境。

Apr, 2023

TOD-BERT: 面向任务导向对话的预训练自然语言理解

本文通过整合多个人机对话数据集，结合用户和系统记号改良预训练模型，提出了对话任务 BERT（TOD-BERT）模型，并通过四个对话应用领域的实验验证，表明 TOD-BERT 在意图识别、对话状态跟踪、对话行为预测、响应选择等方面超过了强对话模型 BERT，并且具有更强的少量数据学习能力。

Apr, 2020

BERT4Loc: 基于 BERT 的位置推荐系统

本研究提出了一个基于 BERT 的定位感知推荐系统，该系统可以从基于位置的社交媒体平台中提取位置信息，并根据用户的历史行为和偏好，为用户提供更相关的位置推荐结果，该模型在大量的实验数据集中一致优于现有的顺序模型。

Aug, 2022

在 3D 环境中探索与描述：基于身体感知的视觉字幕生成

当前的视觉说明模型假设图像是完整呈现场景的完美捕捉，然而在真实世界场景中一个图像可能没有提供良好的视角，从而限制了对细粒度场景的理解。为了克服这一限制，我们提出了一项名为 “实体说明” 的新任务，将视觉说明模型与导航能力相结合，使其能够主动探索场景，并减少来自次优视角的视觉模糊。我们构建了一个包含 10K 个混乱物体的 3D 场景和每个场景三个注释段落的 ET-Cap 数据集，以支持该任务。我们提出了一个级联实体说明模型（CaBOT），它由导航器和说明器组成，用于处理这个任务。广泛的实验证明我们的模型优于其他精心设计的基线模型。我们的数据集、代码和模型可在此链接获得。

Aug, 2023