多模态对话生成中的文本视觉相互依赖建模
本文提出一种新的跨模态检索方法,利用生成式模型学习多模态数据的全局和本地特征,从而在 MSCOCO 数据集上实现了最先进的跨模态检索结果。
Nov, 2017
本文提出了一种名为 VU-BERT 图文联合嵌入的框架,通过用 patch projection 获取视觉嵌入来简化模型,从而解决了现有研究中用于建模交互的具有特定模态的模块难以使用的问题,并在可视对话任务上取得了较高的竞争性表现。
Feb, 2022
该论文探讨了通过使用图像和对话背景信息生成下一步回答的视觉对话任务。因为一些对话问题只需要看图像,没有历史对话背景的信息,因此先前的联合模式变得依赖和容易陷入对话历史的记忆中,相比之下,仅使用图像的模型更具有普适性,并且在 NDCG 指标上表现更好。因此,作者提出了一种结合两种模型的方法,并在视觉对话挑战赛中取得优异的成绩。
Jan, 2020
该研究提出了一种多模态增量变形器(MITVG)的视觉指向方法,该方法可以显式地定位与文本实体相关的图像对象,从而帮助模型排除不需要关注的视觉内容,进而在多轮对话历史记录和视觉场景的基础上生成一致且连贯的响应。该模型在 VisDial v0.9 和 v1.0 数据集上实验结果证明了其优越性能。
Sep, 2021
本论文提出了一种多模态对话生成模型,通过一种新颖的会话代理 Divter,该模型在低资源情况下学习多模态对话,利用文本和图像对对话历史进行响应,并取得了最先进的结果。
Oct, 2021
通过用生成式变压器填补缺失的视觉数据,我们提出了一个简单但有效的多模态学习框架 GTI-MM,以增强数据效率和模型的鲁棒性,尤其是对于缺少视觉模态的情况。我们在多个多模态数据集上进行了全面的分析,包括模型的训练,结果显示合成图像有助于训练数据的效率,并提高在训练和测试中缺失视觉数据的模型的鲁棒性。此外,我们证明了 GTI-MM 对于生成数量较低和简单提示技术也是有效的。
Feb, 2024
本文旨在研究结合先进的开放域对话代理和视觉模型,以实现多模态对话的目标,研究不同的图像融合方案和域自适应预训练和微调策略,并展示了我们最好的模型不仅在多模态对话方面优于现有的强模型,而且在纯文本对话方面表现也和其前身 BlenderBot 一样好,同时我们还研究并整合了安全组件,展示这种努力不会削弱模型性能方面的吸引力度量。
Oct, 2020
本文提出创建一种包含图像的 45k 多模态对话数据集的方法,该方法通过准备、预处理文本对话数据集、使用文本转图像技术创建混合图像对话,以及利用基于上下文相似性的过滤步骤确保数据集的上下文一致性。自动度量和人类评估结果表明,我们的数据集可以有效地用于多模态对话系统的训练,需要以上下文感知的方式理解图像和文本。
Jul, 2021