坐标对话中的多模态物体识别

ACLFeb, 2023

Which One Are You Referring To? Multimodal Object Identification in Situated Dialogue

Holy Lovenia, Samuel Cahyawijaya, Pascale Fung

TL;DR通过探索三种方法并在 SIMMC 2.1 数据集上进行评估，我们提出了一种最有效的方法 —— 场景对话对齐，相较于 SIMMC 2.1 基准提升了约 20% 的 F1 分数。我们还分析和讨论了该方法的局限性以及未来研究的潜在方向。

Abstract

The demand for multimodal dialogue systems has been rising in various domains, emphasizing the importance of interpreting multimodal inputs from conversational and situational contexts. We explore three methods t

multimodal dialogue systems interpreting multimodal inputs situated dialogue dataset scene-dialogue alignment future works

发现论文，激发创造

SIMMC 2.0：面向任务的沉浸式多模态对话数据集

本研究提出了一个基于真实情境的多模交互对话数据集 SIMMC 2.0，收集了 11,000 个在购物领域的用户 <-> 助手任务对话。数据集通过模拟器和手工语句改写收集，可用于对话系统的基准测试和自然语言处理研究。

Apr, 2021

多模态交互对话

本研究介绍了一种新的指向培训具有多模态输入上下文的代理，以及执行与其相关的多模态操作的模型 SIMMC，提供了两个 SIMMC 数据集，以及多个评估协议。

Jun, 2020

使用预训练单模型进行 SIMMC 2.0 的多模态交互

本文介绍了我们在 Dialog State Tracking Challenge 10 上进行的 Situated Interactive MultiModal Conversations 2.0 挑战中的工作和方法，提出了一种结合图像和文本的多模态模型，并对 SIMMC 2.0 数据集进行了挑战。通过预先训练模型，我们在 subtask＃1，＃2 中取得了第三佳表现，并在生成 subtask＃4 中获得亚军。

Dec, 2021

IMAD: 图像增强的多模态对话

该研究提出了一种基于多模态视角的对话系统，并通过构建 IMAD 数据集和进行基线模型训练，证明了其在图像解释、数据集建设和模型表现方面具有潜在优势。

May, 2023

SIMMC: 多模态对话数据收集和评估平台

SIMMC is a platform for multi-modal conversational data collection and evaluation of digital virtual assistants through an immersive setup, with the aim of providing a situated conversational dataset for the Conversational AI research community.

Nov, 2019

MMDialog：面向多模态开放领域对话的大规模多轮对话数据集

本文介绍了 MMDialog 数据集、提出并规范了两个基于检索和生成场景的反应生成任务，还构建了两个基线，并提出了一种新的评估指标 MM-Relevance，用于衡量多模态反应。

Nov, 2022

基于知识的多模态搜索对话代理

本研究通过学习 MMD 数据集并实现基于知识库的多模态对话模型解决了多模态基于搜索的对话系统中的新挑战，该模型将编码的知识库表示附加到解码器输入中，从而在文本相似性测量方面获得了高于强基线的表现，其中三个 BLEU 点仅由于使用了来自知识库的附加信息。

Oct, 2018

探索用于 SIMMC 2.0 挑战中的歧义检测和共指消解的多模态表示

本文研究了会话人工智能中的歧义检测和指代消解，使用 TOD-BERT 和 LXMERT 模型等对此进行了实现和对比，并得出了语言模型能够检测歧义且单模态指代消解模型可通过智能对象表示避免使用视觉组件等结论。

Feb, 2022

多模对话模型处理澄清对话的能力评估

在对话中，当引用表达不能唯一地识别出意图的指示对象时，产生了指向性模糊。此研究表明生成和回应澄清请求对于多模式、以视觉为基础的对话模型的架构和目标函数有特定的限制。通过使用 SIMMC 2.0 数据集评估不同最先进模型体系结构处理澄清交流的能力，该模型可探测它们在模型中引起的上下文更新的度量。结果发现，基于语言的模型能够编码简单的多模式语义信息和处理一些澄清交流，而多模式模型可以使用其他学习目标来获取解耦的物体表示，这对处理跨模态的复杂指向性模糊至关重要。

Jul, 2023

利用对话方案的 LLM 增强多模式对话系统的一致性

这篇论文描述了我们提交给 2023 年对话机器人竞赛的对话系统。该系统旨在帮助旅行社的用户决定参观京都市的两个观光景点的计划。通过根据对话场景控制对话流程，我们的对话系统具有灵活性和稳定性，并根据系统的话语和用户的情况引入动作和语音控制以提高用户满意度。在预赛中，我们的系统在印象评估中排名第五，在计划评估中排名第六，共有 12 支队伍。

Dec, 2023