- MM统一多模态模型结合非可能训练用于视觉对话
本文提出了一种名为 UniMM-UL 的统一多模态模型,它使用 Unlikelihood Training 方法来探索负样本中使用的有用知识,具有比先前工作更好的生成结果和与最先进技术相媲美的区分结果,并支持视觉对话理解和生成的多任务学习。
- VD-PCR: 通过代词指代消解提高视觉对话
本文中提出了 VD-PCR,这是一种提高视觉对话理解的新框架,旨在通过使用代词照应解决方法,包括隐式和显式方法。采用隐式方法,采用新的方法来执行代词照应解决和视觉对话任务的联合训练;采用显式方法,提出从代词和它们的指示物的指代关系识别历史轮 - CVPR对话必将继续:通过生成自训练来改善视觉对话
本文提出了一种名为生成自我训练的半监督学习方法,利用网络上的无标注图像生成合成对话并结合原始数据进行对话训练,其中对抗攻击等问题进行对抗性评估,目前实验结果在两种数据集上都取得了最新的最佳表现。
- CVPRUTC: 一种带有 Inter-Task 对比学习的统一 Transformer,用于视觉对话
本文提出了一种基于对比学习的框架 UTC,通过联合学习来实现对话中的判别和生成任务,该框架考虑了对话的上下文和目标答案作为锚点,利用两种相辅相成的对比损失来加强彼此的表示学习信号,并在 VisDial v1.0 数据集上进行了评估,在判别和 - 通过对比学习提高视觉对话中的跨模态理解
本文提出了基于 VD-BERT 模型的 ICMU 方法,通过四向对比学习区分不同的输入来提高跨模态理解,支持多次视觉对话,改善视觉对话模型的跨模态理解,并在 VisDial 数据集上得到了令人满意的结果。
- CVPR在视觉对话中运用多结构常识知识进行推理
本文提出了一种基于多结构的常识知识的推理模型,通过句子级事实和图级事实表示外部知识,通过图形交互和变压器融合捕获相关的知识并将其融入视觉和语义特征中,已在 VisDial v1.0 和 VisDialCK 数据集上取得了有效的性能优于比较方 - 非完全可观测场景下的合作物体指称游戏
在非完全可观察的视觉场景中,介绍了一种基于目标引用的游戏,旨在通过对话识别相似视觉场景之间的差异,并构建了一个名为 SpotDiff 的大规模多模态数据集,其中包含 87000 个虚拟现实图像和 97k 的对话。
- 模拟视觉对话中的指代关系
本文提出两个基于人类对话语言知识和语境特征的软约束来改进模型的对话代词消解能力,将这两个约束嵌入到深度 transformer 神经架构中。实验结果显示出了本模型在 VisDial v1.0 数据集上相比于现有模型的性能提升,无需预训练其他 - VU-BERT:一个视觉对话的统一框架
本文提出了一种名为 VU-BERT 图文联合嵌入的框架,通过用 patch projection 获取视觉嵌入来简化模型,从而解决了现有研究中用于建模交互的具有特定模态的模块难以使用的问题,并在可视对话任务上取得了较高的竞争性表现。
- ACLGoG: 基于关系感知的图上图网络用于视觉对话
本文提出了一种新颖的关系感知图嵌入模型(GoG)用于视觉对话,该模型可以捕获对话历史中的代词和依赖关系以及问题和图像对象之间的关系,实验结果表明我们的模型在生成式和判别式的对话任务中都取得了显著的优势。
- EMNLP学习为视觉对话建立视觉对象的联系
提出一种新方法,通过先验分布和后验分布基于上下文理解来实现视觉对象的定位,从而提高视觉对话模型在生成和区分性任务中的表现,并在 VisDial v0.9 和 v1.0 数据集上进行了实验验证。
- EMNLP通过实体为基础的策略学习和增强猜测器来增强视觉对话问答系统
在 Q-Bot-A-Bot 图像猜测游戏设置下,利用强化学习与监督学习等方式构建一个关于视觉对话问题的相关实体增强问答系统 (ReeQ) 和基于增强学习的可靠游戏者 (AugG),这一方案在 VisDial v1.0 数据集上达到了最佳表现 - ACL基于 MRR 和 NDCG 模型的视觉对话集成
介绍了一种基于非参数排序的双步骤方法,可以将 MRR 和 NDCG 模型合并,从而在视觉对话的领域中发挥出色,展现了当前 MRR 和 NDCG 的最优表现。
- ACL视觉对话中的历史记录:我们真的需要吗?
本文提出基于对话历史信息的注意力机制可以有效提高视觉对话系统的性能,并呈现出一种新的评估数据集进行基准测试,取得了 63% 的 NDCG 值。
- 基于多视角注意力网络的视觉对话
论文旨在通过提出 Multi-View Attention Network (MVAN) 模型来解决视觉对话任务中的挑战性问题,该模型基于注意机制,利用多个视角来处理异构输入,并且通过序列对齐过程构建多模态表示,从而可以更好地捕捉到对话历史 - EMNLPVD-BERT: 一个与 BERT 结合的统一视觉和对话 Transformer
该研究提出的 VD-BERT 框架,是一种简单且有效的视觉 - 对话 Transformer 编码器,可以通过统一的编码器捕获图像和多回合对话之间的交互,并通过与 BERT 语言模型的整合实现回答的排名和生成,同时无需预训练外部视觉 - 语 - EMNLP稀疏图学习与知识迁移推理视觉对话
本论文研究了视觉对话中的两个核心难题:对话历史下的语义结构推理和给定问题的多个合适答案的识别。为解决这些挑战,我们提出了 Sparse Graph Learning (SGL) 和 Knowledge Transfer (KT) 方法,使用 - 基于上下文感知的迭代图推理在视觉对话中的应用
本文提出了一种上下文感知图神经网络(Context-Aware Graph,CAG),通过自适应的前 K 个节点的信息传递机制,迭代更新每个节点(既包括視觉类、又包括历史关联类特征)的图结构,从而实现关系推理。此方法在 VisDial v0 - AAAI视觉对话的模态平衡模型
该论文探讨了通过使用图像和对话背景信息生成下一步回答的视觉对话任务。因为一些对话问题只需要看图像,没有历史对话背景的信息,因此先前的联合模式变得依赖和容易陷入对话历史的记忆中,相比之下,仅使用图像的模型更具有普适性,并且在 NDCG 指标上 - AAAIDMRM: 用于视觉对话的双通道多跳推理模型
提出了一种新的视觉对话模型 DMRM,通过双通道多跳推理结合多模态注意力,有效地将问题、图像和历史上下文信息融合,从而提高了视觉对话的生成质量。在 VisDial v0.9 和 v1.0 数据集上,DMRM 模型的实验结果表明,相比较其他模