基于 Transformer 的大规模预训练体验对话本地化
本文提出了一个名为 way 的数据集,其中包含了约 6k 个人类-人类对话,用于合作式定位任务。本文着重研究基于嵌入式对话 (LED) 的定位任务,并提供了一个强有力的基线模型和不同建模选择的详细分析。最佳模型在处理未知场景时实现了 32.7% 的预测准确率,人类处理此类任务的预测准确率为 70.4%。
Nov, 2020
DiaLoc 是一种新的基于对话的定位框架,通过迭代细化位置预测来可视化每次对话后的当前姿态,有效地利用多模态数据进行分步定位。DiaLoc 在单次拍摄(ValUnseen 准确率 + 7.08%)和多次拍摄(ValUnseen 准确率 + 10.85%)设置中取得了最先进的结果,缩小了模拟与实际应用之间的差距,为未来的协作定位和导航研究打开了新的大门。
Mar, 2024
EmBERT 是一种基于 transformer 的模型,具有语言指导的目的完成能力。它是第一个能够成功处理 ALFRED 的历史记录、多模态的长时间跨度的 transformer 模型,同时也是第一个在 ALFRED 中使用对象导航目标的模型。
Aug, 2021
本文介绍了一种基于 BERT 的上下文对话编码器 DialogueBERT,通过五个自超监督学习预训练任务学习对话表述的特殊性,并整合了四个不同的输入嵌入来捕捉话语之间的关系,该模型在意图识别、情感识别和命名实体识别等三个下游对话理解任务中表现出优异性能。
Sep, 2021
本文提出了一种基于多视角摄像机图像的端到端视觉语义定位神经网络 BEV-Locator,并通过大规模 nuScenes 和 Qcraft 数据集的实验结果证明该方法能够有效地关联来自多视角图像和全局语义地图的跨模态信息,可以在多种场景下估计车辆姿态,实验结果表明其横向、长向平移和航向角度的平均绝对误差分别为 0.052m,0.135m 和 0.251 度。
Nov, 2022
该研究提出一种名为 ELBA 的模型,以增强具有互动人类能力的代理,通过问答实现动态获取附加信息,以提高任务完成性能,并在 TEACH 视觉对话导航和任务完成数据集上进行了评估。
Feb, 2023
ENTL 是一种提取具有长序列表示来实现躯体导航的方法,其将世界建模、定位和模仿学习统一为单一的序列预测任务,而模型则使用当前状态和动作作为条件预测未来状态的向量量化预测进行训练,还可以实现定位和未来帧预测等辅助任务,而其通用结构可用于多种具有挑战性的躯体任务,此方法的一个关键特性是模型是在没有明确的奖励信号的情况下进行预先训练的,因此可适用于多个任务和环境。
Apr, 2023
本文通过整合多个人机对话数据集,结合用户和系统记号改良预训练模型,提出了对话任务 BERT(TOD-BERT)模型,并通过四个对话应用领域的实验验证,表明 TOD-BERT 在意图识别、对话状态跟踪、对话行为预测、响应选择等方面超过了强对话模型 BERT,并且具有更强的少量数据学习能力。
Apr, 2020
本研究提出了一个基于 BERT 的定位感知推荐系统,该系统可以从基于位置的社交媒体平台中提取位置信息,并根据用户的历史行为和偏好,为用户提供更相关的位置推荐结果,该模型在大量的实验数据集中一致优于现有的顺序模型。
Aug, 2022
当前的视觉说明模型假设图像是完整呈现场景的完美捕捉,然而在真实世界场景中一个图像可能没有提供良好的视角,从而限制了对细粒度场景的理解。为了克服这一限制,我们提出了一项名为 “实体说明” 的新任务,将视觉说明模型与导航能力相结合,使其能够主动探索场景,并减少来自次优视角的视觉模糊。我们构建了一个包含 10K 个混乱物体的 3D 场景和每个场景三个注释段落的 ET-Cap 数据集,以支持该任务。我们提出了一个级联实体说明模型(CaBOT),它由导航器和说明器组成,用于处理这个任务。广泛的实验证明我们的模型优于其他精心设计的基线模型。我们的数据集、代码和模型可在此链接获得。
Aug, 2023