多模态对话生成中的文本视觉相互依赖建模

May, 2021

多模态对话生成中的文本视觉相互依赖建模

Modeling Text-visual Mutual Dependency for Multi-modal Dialog Generation

Shuhe Wang, Yuxian Meng, Xiaofei Sun, Fei Wu, Rongbin Ouyang...

TL;DR该论文提出了一种解决多模态对话生成的方法，可以更好地模拟真实环境中的多模态对话。通过建模文本 - 视觉特征之间的相互依赖，并研究生成与视觉背景相关的对话，大幅提升了模型性能。

Abstract

multi-modal dialog modeling is of growing interest. In this work, we propose frameworks to resolve a specific case of multi-modal dialog generation that better mimics multi-modal →

multi-modal dialog modeling dialog generation visual context text-visual features performance boost

发现论文，激发创造

通过生成模型改进文本 - 视觉交叉检索：观察、想象和匹配

本文提出一种新的跨模态检索方法，利用生成式模型学习多模态数据的全局和本地特征，从而在 MSCOCO 数据集上实现了最先进的跨模态检索结果。

Nov, 2017

VU-BERT：一个视觉对话的统一框架

本文提出了一种名为 VU-BERT 图文联合嵌入的框架，通过用 patch projection 获取视觉嵌入来简化模型，从而解决了现有研究中用于建模交互的具有特定模态的模块难以使用的问题，并在可视对话任务上取得了较高的竞争性表现。

Feb, 2022

视觉对话的模态平衡模型

该论文探讨了通过使用图像和对话背景信息生成下一步回答的视觉对话任务。因为一些对话问题只需要看图像，没有历史对话背景的信息，因此先前的联合模式变得依赖和容易陷入对话历史的记忆中，相比之下，仅使用图像的模型更具有普适性，并且在 NDCG 指标上表现更好。因此，作者提出了一种结合两种模型的方法，并在视觉对话挑战赛中取得优异的成绩。

Jan, 2020

多模态增量变压器结合视觉定位生成视觉对话

该研究提出了一种多模态增量变形器（MITVG）的视觉指向方法，该方法可以显式地定位与文本实体相关的图像对象，从而帮助模型排除不需要关注的视觉内容，进而在多轮对话历史记录和视觉场景的基础上生成一致且连贯的响应。该模型在 VisDial v0.9 和 v1.0 数据集上实验结果证明了其优越性能。

Sep, 2021

IMAD: 图像增强的多模态对话

该研究提出了一种基于多模态视角的对话系统，并通过构建 IMAD 数据集和进行基线模型训练，证明了其在图像解释、数据集建设和模型表现方面具有潜在优势。

May, 2023

多模态对话回应生成

本论文提出了一种多模态对话生成模型，通过一种新颖的会话代理 Divter，该模型在低资源情况下学习多模态对话，利用文本和图像对对话历史进行响应，并取得了最先进的结果。

Oct, 2021

双重知识增强生成预训练语言模型的多模态对话系统

本文提出了一个可以双重增强知识的生成式语言模型，用于为多模态任务导向式对话系统生成适当的文本响应。实验证明，该模型优于现有竞争对手。

Jul, 2022

文本到图像模型在视觉模态缺失的多模态学习中的应用

通过用生成式变压器填补缺失的视觉数据，我们提出了一个简单但有效的多模态学习框架 GTI-MM，以增强数据效率和模型的鲁棒性，尤其是对于缺少视觉模态的情况。我们在多个多模态数据集上进行了全面的分析，包括模型的训练，结果显示合成图像有助于训练数据的效率，并提高在训练和测试中缺失视觉数据的模型的鲁棒性。此外，我们证明了 GTI-MM 对于生成数量较低和简单提示技术也是有效的。

Feb, 2024

多模态开放领域对话

本文旨在研究结合先进的开放域对话代理和视觉模型，以实现多模态对话的目标，研究不同的图像融合方案和域自适应预训练和微调策略，并展示了我们最好的模型不仅在多模态对话方面优于现有的强模型，而且在纯文本对话方面表现也和其前身 BlenderBot 一样好，同时我们还研究并整合了安全组件，展示这种努力不会削弱模型性能方面的吸引力度量。

Oct, 2020

用语义相关的图片替换文本构建多模式对话数据集

本文提出创建一种包含图像的 45k 多模态对话数据集的方法，该方法通过准备、预处理文本对话数据集、使用文本转图像技术创建混合图像对话，以及利用基于上下文相似性的过滤步骤确保数据集的上下文一致性。自动度量和人类评估结果表明，我们的数据集可以有效地用于多模态对话系统的训练，需要以上下文感知的方式理解图像和文本。

Jul, 2021