IMAD: 图像增强的多模态对话

May, 2023

IMAD: IMage-Augmented multi-modal Dialogue

Moskvoretskii Viktor, Frolov Anton, Kuznetsov Denis

TL;DR该研究提出了一种基于多模态视角的对话系统，并通过构建 IMAD 数据集和进行基线模型训练，证明了其在图像解释、数据集建设和模型表现方面具有潜在优势。

Abstract

Currently, dialogue systems have achieved high performance in processing text-based communication. However, they have not yet effectively incorporated visual information, which poses a significant challenge. Furthermore, existing models that incorporate images in dialogue generation focus on discussing the image itself. Our proposed approach presents a novel

multi-modal dialogue systems image interpretation dataset construction visual question answering model performance

发现论文，激发创造

用语义相关的图片替换文本构建多模式对话数据集

本文提出创建一种包含图像的 45k 多模态对话数据集的方法，该方法通过准备、预处理文本对话数据集、使用文本转图像技术创建混合图像对话，以及利用基于上下文相似性的过滤步骤确保数据集的上下文一致性。自动度量和人类评估结果表明，我们的数据集可以有效地用于多模态对话系统的训练，需要以上下文感知的方式理解图像和文本。

Jul, 2021

DialogCC：大规模多模态对话数据集

本文介绍了一种基于 CLIP 相似度的多模态对话数据集创建管道，使用这个管道，我们提出了一个大规模的多模态对话数据集 DialogCC，并且通过广泛的实验结果表明，使用我们的数据集训练多模态对话模型可以改善泛化性能，与此同时，使用我们的数据集训练的现有模型在图像和文本检索任务上取得了最先进的表现。

Dec, 2022

多模态开放领域对话

本文旨在研究结合先进的开放域对话代理和视觉模型，以实现多模态对话的目标，研究不同的图像融合方案和域自适应预训练和微调策略，并展示了我们最好的模型不仅在多模态对话方面优于现有的强模型，而且在纯文本对话方面表现也和其前身 BlenderBot 一样好，同时我们还研究并整合了安全组件，展示这种努力不会削弱模型性能方面的吸引力度量。

Oct, 2020

多模态对话回应生成

本论文提出了一种多模态对话生成模型，通过一种新颖的会话代理 Divter，该模型在低资源情况下学习多模态对话，利用文本和图像对对话历史进行响应，并取得了最先进的结果。

Oct, 2021

MAGID: 生成合成多模态数据集的自动化流程

我们引入了 MAGID，一个以多模式互动系统为基础的创新框架，通过高质量且多样化的图像增强了仅有文本的对话，通过扩充图像数据库取得显著的人类评估改进。

Mar, 2024

构建多模态人工智能聊天机器人

该研究旨在创建一个多模态人工智能系统，可以与人类交谈并分享相关图片，其中包括了图片检索模块和图片理解生成回复的模块。使用 ViT，BERT，GPT-2/DialoGPT 三个模型，在自动生成的和人工评估中结果显示，在开放式场景的图像识别中表现优异。

Apr, 2023

视觉对话的模态平衡模型

该论文探讨了通过使用图像和对话背景信息生成下一步回答的视觉对话任务。因为一些对话问题只需要看图像，没有历史对话背景的信息，因此先前的联合模式变得依赖和容易陷入对话历史的记忆中，相比之下，仅使用图像的模型更具有普适性，并且在 NDCG 指标上表现更好。因此，作者提出了一种结合两种模型的方法，并在视觉对话挑战赛中取得优异的成绩。

Jan, 2020

多模态基于注意力机制视频特征的端到端视听场景感知对话

该论文介绍了一种新的视频场景感知对话系统，该系统将多个研究领域的最新技术整合应用，包括端到端的对话技术、视觉问答技术，以及视频描述技术。通过收集一个有关人类行为视频的对话数据集，作者们使用该数据集训练出一种多模态对话模型，它可以在对视频进行讨论时生成响应。最终实验结果表明，使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景（视频）生成对话的质量。

Jun, 2018

教授文本到图像模型进行交流

通过语料上进行的实验结果证明，我们的方法有效且实用，能够生成与指定对话一致的逼真图像，并在多个度量指标上持续提高各种模型的性能。

Sep, 2023

DialogGen: 多模态交互式对话系统用于多轮文本到图像生成

通过将多模态大型语言模型与文本到图像生成模型相结合，提出了一种用于多轮文本到图像生成的多模态交互对话系统，同时引入了一种全面的多模态对话评估基准，以评估模型在生成准确且连贯的多模态内容上的能力，包括模态切换和输出图像的连贯性。

Mar, 2024