用语义相关的图片替换文本构建多模式对话数据集

ACLJul, 2021

用语义相关的图片替换文本构建多模式对话数据集

Constructing Multi-Modal Dialogue Dataset by Replacing Text with Semantically Relevant Images

Nyoungwoo Lee, Suwon Shin, Jaegul Choo, Ho-Jin Choi, Sung-Hyun Myaeng

TL;DR本文提出创建一种包含图像的 45k 多模态对话数据集的方法，该方法通过准备、预处理文本对话数据集、使用文本转图像技术创建混合图像对话，以及利用基于上下文相似性的过滤步骤确保数据集的上下文一致性。自动度量和人类评估结果表明，我们的数据集可以有效地用于多模态对话系统的训练，需要以上下文感知的方式理解图像和文本。

Abstract

In multi-modal dialogue systems, it is important to allow the use of images as part of a multi-turn conversation. Training such dialogue systems generally requires a large-scale dataset consisting of multi-turn dialogues that involve images, but such datasets rarely exist. In response,

multi-modal dialogue systems dataset creation text-to-image replacement contextual coherence training data

发现论文，激发创造

DialogCC：大规模多模态对话数据集

本文介绍了一种基于 CLIP 相似度的多模态对话数据集创建管道，使用这个管道，我们提出了一个大规模的多模态对话数据集 DialogCC，并且通过广泛的实验结果表明，使用我们的数据集训练多模态对话模型可以改善泛化性能，与此同时，使用我们的数据集训练的现有模型在图像和文本检索任务上取得了最先进的表现。

Dec, 2022

IMAD: 图像增强的多模态对话

该研究提出了一种基于多模态视角的对话系统，并通过构建 IMAD 数据集和进行基线模型训练，证明了其在图像解释、数据集建设和模型表现方面具有潜在优势。

May, 2023

MMDialog：面向多模态开放领域对话的大规模多轮对话数据集

本文介绍了 MMDialog 数据集、提出并规范了两个基于检索和生成场景的反应生成任务，还构建了两个基线，并提出了一种新的评估指标 MM-Relevance，用于衡量多模态反应。

Nov, 2022

多模态对话回应生成

本论文提出了一种多模态对话生成模型，通过一种新颖的会话代理 Divter，该模型在低资源情况下学习多模态对话，利用文本和图像对对话历史进行响应，并取得了最先进的结果。

Oct, 2021

构建多模态人工智能聊天机器人

该研究旨在创建一个多模态人工智能系统，可以与人类交谈并分享相关图片，其中包括了图片检索模块和图片理解生成回复的模块。使用 ViT，BERT，GPT-2/DialoGPT 三个模型，在自动生成的和人工评估中结果显示，在开放式场景的图像识别中表现优异。

Apr, 2023

以意象为探索：探索一种用于对话推荐的多模态数据集

通过多模态数据集，我们介绍了一个用户通过图像表达偏好的研究。这个数据集包含了从风景到艺术表现的广泛的视觉表达，用户请求推荐具有类似感觉的书或音乐，并由社区通过点赞支持。我们的实验证明了大型基础模型在这些任务中的局限性。特别是，视觉 - 语言模型与仅使用描述的语言模型相比没有显著优势，我们推测这是因为未充分利用的视觉能力。为了更好地利用这些能力，我们提出了图像链推理的方法，并取得了显著改进。我们公开发布了我们的代码和数据集。

May, 2024

OpenViDial：一个包含视觉背景的大规模开放域对话数据集

本文提出了一个大规模多模态对话数据集 OpenViDial，并基于该数据集提出了一族多种编码器 - 解码器模型，使用了文本和视觉上下文。结果表明，多模态特征的整合可以显著提高对话生成的质量，是实现大规模多模态对话学习的重要一步。

Dec, 2020

多模态开放领域对话

本文旨在研究结合先进的开放域对话代理和视觉模型，以实现多模态对话的目标，研究不同的图像融合方案和域自适应预训练和微调策略，并展示了我们最好的模型不仅在多模态对话方面优于现有的强模型，而且在纯文本对话方面表现也和其前身 BlenderBot 一样好，同时我们还研究并整合了安全组件，展示这种努力不会削弱模型性能方面的吸引力度量。

Oct, 2020

教授文本到图像模型进行交流

通过语料上进行的实验结果证明，我们的方法有效且实用，能够生成与指定对话一致的逼真图像，并在多个度量指标上持续提高各种模型的性能。

Sep, 2023

社交媒体上的多模式聊天数据集

探索利用图片等多模态语境来改善对话系统，使用自然语言数据集 MMChat，通过人工筛选和过滤得到 MMChat-hf，利用注意力机制改善生成任务的稀疏性，结果表明引入图片特征的有效性和处理稀疏性的效力。

Aug, 2021