改进视觉对话的两个因果原则
本文介绍了一种同时减少 VQA 系统中视觉和语言偏差的方法,并推出了一种解释策略,最终在 VQA-CP v2 数据集上取得了比现有方法更好的结果。
May, 2023
本文提出了一种新的模型来解决复杂的视觉对话结构问题,并将其明确地形式化为具有部分观察节点和未知图结构(对话中的关系)的图形模型中的推断问题。通过期望最大化算法,我们可以在推理过程中推断出潜在的对话结构和所需的答案值,并提出了一种可微分图神经网络解决方案。实验证明,我们的模型在 VisDial 和 VisDial-Q 数据集上表现优异,并且能够推断出更好的对话推理潜在结构。
Apr, 2019
本文提出两个基于人类对话语言知识和语境特征的软约束来改进模型的对话代词消解能力,将这两个约束嵌入到深度 transformer 神经架构中。实验结果显示出了本模型在 VisDial v1.0 数据集上相比于现有模型的性能提升,无需预训练其他视觉语言数据集。
Mar, 2022
本文介绍了视觉对话任务,即通过图像、对话历史和问题,要求 AI 智能体以自然、对话式的语言与人类进行有意义的对话,并率先提出了一种基于视觉的通用测试方法以及一种新颖的二人聊天数据收集协议。在此基础上,利用 Latre Fusion、Hierarchical Recurrent Encoder 和 Memory Network 等三个编码器和两个解码器(生成式和判别式),超越了许多复杂的基准线,并采用了基于检索的评估协议,Quantify 了机器和人类在视觉对话任务上的性能差距,进而演示了第一款 “视觉聊天机器人”。
Nov, 2016
研究如何提高视觉对话代理的适应性,使其可以在不忘记如何与人交谈的情况下,高效地适应新任务。通过分解意图和语言,减少在新任务中语言漂移的情况,并通过定性结果、自动化指标和人类研究证明我们的模型可以适应新任务并保持语言质量。
Jul, 2020
使用基于规范相关分析 (CCA) 的简单方法,我们对视觉对话进行了特征描述,并指出现有方法存在的问题。该方法忽略了视觉刺激和对话排序,不需要梯度,具有较少的参数数量和学习时间,并在标准数据集上达到了接近最先进的性能水平,进一步分析了数据集的隐含偏差和过度约束的评估指标效应。
Dec, 2018
本文提出了一种基于 ViLBERT 的方法,该方法采用与 Visual Dialog 相关的视觉语言数据集的预训练,随后转移到 Visual Dialog 的训练上。文中还发现,在 Visual Dialog 中使用密集注释进行微调,可以提高 NDCG,但会降低 MRR。
Dec, 2019
本文提出了基于 VD-BERT 模型的 ICMU 方法,通过四向对比学习区分不同的输入来提高跨模态理解,支持多次视觉对话,改善视觉对话模型的跨模态理解,并在 VisDial 数据集上得到了令人满意的结果。
Apr, 2022
本文通过引入 Dual Attention Networks (DAN)模型,提出了一种计算机视觉任务解决方法,用于对话历史和图像特征的信息匹配,通过考虑上下文信息和自我注意力机制的学习,解决了视觉指代消解问题,并在多个数据集上得到了显著的表现提升。
Feb, 2019