多模态交互对话

COLINGJun, 2020

Situated and Interactive Multimodal Conversations

Seungwhan Moon, Satwik Kottur, Paul A. Crook, Ankita De, Shivani Poddar...

TL;DR本研究介绍了一种新的指向培训具有多模态输入上下文的代理，以及执行与其相关的多模态操作的模型 SIMMC，提供了两个 SIMMC 数据集，以及多个评估协议。

Abstract

Next generation virtual assistants are envisioned to handle multimodal inputs (e.g., vision, memories of previous interactions, in addition to the user's utterances), and perform multimodal actions (e.g., display

virtual assistants multimodal inputs dialog history simmc datasets evaluation protocols

发现论文，激发创造

SIMMC: 多模态对话数据收集和评估平台

SIMMC is a platform for multi-modal conversational data collection and evaluation of digital virtual assistants through an immersive setup, with the aim of providing a situated conversational dataset for the Conversational AI research community.

Nov, 2019

SIMMC 2.0：面向任务的沉浸式多模态对话数据集

本研究提出了一个基于真实情境的多模交互对话数据集 SIMMC 2.0，收集了 11,000 个在购物领域的用户 <-> 助手任务对话。数据集通过模拟器和手工语句改写收集，可用于对话系统的基准测试和自然语言处理研究。

Apr, 2021

使用预训练单模型进行 SIMMC 2.0 的多模态交互

本文介绍了我们在 Dialog State Tracking Challenge 10 上进行的 Situated Interactive MultiModal Conversations 2.0 挑战中的工作和方法，提出了一种结合图像和文本的多模态模型，并对 SIMMC 2.0 数据集进行了挑战。通过预先训练模型，我们在 subtask＃1，＃2 中取得了第三佳表现，并在生成 subtask＃4 中获得亚军。

Dec, 2021

坐标对话中的多模态物体识别

通过探索三种方法并在 SIMMC 2.1 数据集上进行评估，我们提出了一种最有效的方法 —— 场景对话对齐，相较于 SIMMC 2.1 基准提升了约 20% 的 F1 分数。我们还分析和讨论了该方法的局限性以及未来研究的潜在方向。

Feb, 2023

基于知识的多模态搜索对话代理

本研究通过学习 MMD 数据集并实现基于知识库的多模态对话模型解决了多模态基于搜索的对话系统中的新挑战，该模型将编码的知识库表示附加到解码器输入中，从而在文本相似性测量方面获得了高于强基线的表现，其中三个 BLEU 点仅由于使用了来自知识库的附加信息。

Oct, 2018

MIMIC-IT: 多模态环境下指令调整

介绍了包含大规模多模态指令响应对的 MIMIC-IT 数据集，使用该数据集训练的 Otter 模型表现出出色的多模态感知、推理和语境学习能力，能有效地与用户意图保持一致。

Jun, 2023

多用户多 WOZ：多用户之间的任务导向对话

通过收集多用户多 WOZ 数据集，该研究提出了多用户背景下的查询重写任务，旨在将两个用户之间的对话重写成只包含任务相关信息、能够被对话系统直接处理的简洁任务查询，实验证明通过预测的重写方式，显著提高了对话状态跟踪的性能，并且可以适用于未知领域。

Oct, 2023

多模态基于注意力机制视频特征的端到端视听场景感知对话

该论文介绍了一种新的视频场景感知对话系统，该系统将多个研究领域的最新技术整合应用，包括端到端的对话技术、视觉问答技术，以及视频描述技术。通过收集一个有关人类行为视频的对话数据集，作者们使用该数据集训练出一种多模态对话模型，它可以在对视频进行讨论时生成响应。最终实验结果表明，使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景（视频）生成对话的质量。

Jun, 2018

TWIZ：多模态对话刺激的巫师

任务向导团队在 Alexa Prize TaskBot 挑战赛 2022 中，以 TWIZ bot 为目标助手，通过提供多模态的刺激以及与用户进行人性化对话来解决复杂手动任务的研究问题，从用户的评级和反馈来看，TWIZ bot 是一种有效且稳健的系统。

Oct, 2023

S3：一种简单而强大的样本有效的多模态对话系统

我们提出了一个在多模态对话任务中具有潜在简单但强大效果的基线系统 S3 模型，在 MMMU 和 AI Journey Contest 2023 两个激动人心的榜单上取得了接近最先进的成果。该系统基于一个预训练的大型语言模型，图像和音频的预训练模态编码器以及一个可训练的模态投影器。所提出的用于训练这种架构的有效数据混合表明，基于强大的语言模型并在少量多模态数据上训练的多模态模型可以高效地执行多模态对话任务。

Jun, 2024