DiaLoc：一个迭代式的具身对话定位方法

CVPRMar, 2024

DiaLoc：一个迭代式的具身对话定位方法

DiaLoc: An Iterative Approach to Embodied Dialog Localization

Chao Zhang, Mohan Li, Ignas Budvytis, Stephan Liwicki

TL;DRDiaLoc 是一种新的基于对话的定位框架，通过迭代细化位置预测来可视化每次对话后的当前姿态，有效地利用多模态数据进行分步定位。DiaLoc 在单次拍摄（ValUnseen 准确率 + 7.08%）和多次拍摄（ValUnseen 准确率 + 10.85%）设置中取得了最先进的结果，缩小了模拟与实际应用之间的差距，为未来的协作定位和导航研究打开了新的大门。

Abstract

multimodal learning has advanced the performance for many vision-language tasks. However, most existing works in embodied dialog research focus on navigation and leave the →

multimodal learning embodied dialog localization dialog-based localization iterative refinement

发现论文，激发创造

基于 Transformer 的大规模预训练体验对话本地化

本研究提出了一种基于 LED-Bert 结构的 Localization via Embodied Dialog 方法，使用基于图的场景表示来预测观察者在地图上的最终位置，实验结果表明该方法优于之前的基准方法。

Oct, 2022

CyberLoc：实现准确的长期视觉定位

CyberLoc 是一种图像定位管道，可在困难条件下实现稳健且准确的长期位姿估计；该方法由四个模块组成，包括地图构建、基于单个图像的定位、一致性最大化、鲁棒姿态优化，实验结果表明该方法能够在 Map-based Localization for Autonomous Driving 中获胜

Jan, 2023

通过具身对话进行本体定位

本文提出了一个名为 way 的数据集，其中包含了约 6k 个人类－人类对话，用于合作式定位任务。本文着重研究基于嵌入式对话 (LED) 的定位任务，并提供了一个强有力的基线模型和不同建模选择的详细分析。最佳模型在处理未知场景时实现了 32.7% 的预测准确率，人类处理此类任务的预测准确率为 70.4%。

Nov, 2020

DIALIGHT：基于大型语言模型的轻量级多语言任务导向对话系统开发与评估

DIALIGHT 是一个用于开发和评估多语言任务导向对话系统的工具包，它通过使用预训练语言模型（PLMs）的微调以及利用大型语言模型（LLMs）的零 - shot 和上下文学习能力，促进了多种 ToD 系统之间的系统化评估和比较。我们的评估发现，虽然 PLM 的微调可以提高准确性和一致性，但基于 LLM 的系统在产生不同且受欢迎的回应方面表现出色。然而，我们也发现 LLMs 在遵守任务特定指令和生成多语言输出方面存在重大挑战，为未来研究提供了重要的方向。我们希望这个开放源代码的工具包将成为开发和适当评估多语言 ToD 系统的研究人员的宝贵资源，并降低当前在该领域的入门门槛。

Jan, 2024

FlexLoc: 零样本传感器视角不变性目标定位的条件神经网络与分布式多模态传感器

采用条件神经网络将节点视角信息注入定位管道以适应于未见的视角，显著提高多视图室内跟踪中定位准确性的 FlexLoc 技术。

Jun, 2024

使用大型语言模型进行任务导向对话评估的用户模拟

为了推动自动化任务导向对话系统的评估，本研究提出了一种基于预训练语言模型的新型用户模拟器，并通过上下文学习来生成具有鲁棒性和语言多样性的输出，以模拟人类对话行为。通过与现有对话系统交互，并收集人机交互数据集，验证了该用户模拟器在单一意图对话目标方面的表现与人类相似。

Sep, 2023

坐标对话中的多模态物体识别

通过探索三种方法并在 SIMMC 2.1 数据集上进行评估，我们提出了一种最有效的方法 —— 场景对话对齐，相较于 SIMMC 2.1 基准提升了约 20% 的 F1 分数。我们还分析和讨论了该方法的局限性以及未来研究的潜在方向。

Feb, 2023

语言习得是具有实体、互动、情感的：一个研究计划

本文研究了多模态经验、语言学习和具体到抽象的词汇发展历程，并提出了一种结合当代模型和基于词汇的模型的语义模型，并使用机器人对话系统来学习语言。

May, 2021

VLocNet ++: 面向语义视觉定位和里程计的深度多任务学习

本研究提出了 VLocNet ++ 体系结构，采用多任务学习方法来利用学习语义，回归 6-DoF 全局姿势和里程计之间的相互关系，以使每个任务都获得相互的好处。我们的网络通过同时将世界的几何和语义知识嵌入姿势回归网络来克服上述限制。大量实验证明，我们的方法均能胜过以本地特征为基础的方法，同时实现多个任务并在挑战性场景中表现出相当的鲁棒性。

Apr, 2018

想象力提高多模翻译

本文研究了多模式翻译任务的两个子任务：学习翻译和学习视觉有关表征，并在多任务学习框架中通过注意力编码器 - 解码器和图像表征预测的方式实现。通过实验发现，这种方法在 Multi30K 数据集上比基准表现要好，即使在外部 MS COCO 数据集进行训练也同样有效，而在外部 News Commentary 平行文本训练翻译模型时进一步提高了性能。

May, 2017