- CommVQA: 在交际语境中定位视觉问题回答
当前的视觉问答(VQA)模型倾向于在孤立的图像 - 问题对上进行训练和评估。然而,人们提出的问题取决于他们的信息需求和对图像内容的先前知识。为了评估如何将图像置于自然语境中以形成视觉问题,我们引入了 CommVQA,这个 VQA 数据集包括 - 文本引导的图像聚类
通过使用图像标题生成和视觉问答 (VQA) 模型生成文本,并基于生成的文本进行聚类,本研究在八个不同的图像聚类数据集中展示了得到的文本表示经常优于图像特征。此外,我们提出了一种基于计数的聚类解释方法,在聚类准确性不太高的情况下,基于关键词的 - 视觉问答模型和人类智能的认知比较研究
通过比较视觉问答模型的输出和注意力图与人类的相似之处,研究发现虽然 VQA 模型在结构和识别水平上与人类相似,但在认知推理方面仍然存在挑战。人类思维过程的分析有助于指导未来的研究,并在建模特征和架构中引入更多的认知能力。
- CVPRS3C: 基于自严格学习的半监督 VQA 自然语言解释
通过自评奖励来改善回答和理由之间的逻辑一致性,我们提出了一种新的基于自举学习的半监督 VQA 自然语言解释模型 (S3C),克服了 VQA 自然语言解释过程中逻辑不一致性和人工标注解释困难的挑战,获得了最新的最优表现。
- 生成式视觉问答
本研究探讨了一种新的方法来创建先进的视觉问答(VQA)模型,可以在时间泛化上产生成功的结果。通过利用来自 VQAv2 和 MS-COCO 数据集的图像和标题,通过稳定扩散生成新图像。使用这个增强的数据集来测试七个基线和最新的 VQA 模型的 - 自动驾驶预训练视觉问答模型的性能分析
这篇简短研究在回答与驾驶场景相关的问题的背景下,对 ViLBERT、ViLT 和 LXMERT 这三种流行的视觉问答(VQA)模型进行初步分析。通过比较计算机视觉专家提供的参考答案与模型输出答案的相似性来评估这些模型的性能。分析了多模态架构 - 移动云游戏视频的主客观质量评估研究
本文通过一项大规模主观研究 Mobile Cloud Gaming Video Quality Assessment,提出了一个新数据集,并对现有算法进行了基准测试。
- EMNLP面向实体的密集语段检索用于外部知识视觉问答
本论文提出了一种 Entity-Focused Retrieval (EnFoRe) 模型,通过识别问题相关实体来检索更具特定性的知识。实验证明,我们的 EnFoRe 模型可以在当前最大的 OK-VQA 数据集上实现卓越的检索性能,并与最先 - CVPR鲁棒视觉问答的生成偏差
采用基于生成网络、对抗性目标函数和知识蒸馏相结合的方法直接训练 VQA 模型的偏见模型,有效减轻 VQA 模型中的数据集偏差问题。
- SwapMix: 检测和规范视觉问答中过度依赖视觉上下文
通过一种名为 SwapMix 的简单有效的扰动技术,我们发现可代表性 VQA 模型的问题答案可以被改变超过 45%。此外,我们还发现模型的上下文依赖性高度取决于视觉表征的质量,并且 SwapMix 可以作为数据增强策略应用于训练中以调整上下 - ACLCARETS: 用于视觉问答的一致性和鲁棒性测试套件
引入 CARETS 系统测试套件,通过一系列六种细粒度能力测试来衡量现代 VQA 模型的一致性和鲁棒性。我们在 CARETS 上评估了六个现代 VQA 系统,并确定了模型理解中的若干可操作性弱点,特别是在否定、或运算或超义不变性等概念方面。 - CVPR针对强鲁棒性视觉问答的反事实样本生成与训练
介绍了一个新的模型 - 不可知模型 Counterfactual Samples Synthesizing and Training(CSST)模型,可以消除 VQA 模型的语言偏见,并使模型变得更加视觉可解释和对语言变化更敏感,并在所有 - 人类对抗视觉问答
通过 Adversarial VQA 测试,发现基于现有的 Visual Question Answering 模型的表现还有很大的提升空间,提出了未来研究方向,并希望 Adversarial VQA 测试能帮助推动 VQA 领域的进步和发 - SIGIRLPF: 一种用于去偏视觉问答的语言优先反馈目标函数
提出了一种称为 LPF 的新方法来解决现有的视觉问答系统存在的语言偏见问题,并进行了充分的实验,结果显示出 LPF 较多个 VQA 模型都能取得显著改善,同时在偏见敏感的 VQA-CP v2 基准测试中也能达到竞争性的表现。
- 利用语言偏见学习内容和上下文的视觉问答
通过建立基于内容和上下文的 CCB 模型,可以减少语言偏差,同时提高 Visual Question Answering (VQA) 模型的学习能力。
- 基于知识路线的视觉问答推理:深度表示嵌入的挑战
提出了一种基于知识路线的视觉问题推理 VQA 模型评估数据集,通过控制程序来选择自然场景图和外部知识库中的三元组,强制进行多步推理,并平衡答案分布,以解决现有的 VQA 模型的浅层相关问题和注释程序不均衡的问题。
- AAAI正则化注意力网络在视觉问答异常检测中的应用
本研究评估了最新的 VQA 模型对五种不同异常情况的稳健性,并通过注意力机制的最大熵正则化方法提出了一个模型无关的跨模态技术来提高对各种异常情况的检测能力。
- CVPR为强健视觉问答生成反事实样本
本研究提出一种针对视觉问答(VQA)模型的计数样本合成(CSS)训练方案,该方案通过掩盖图像中的关键对象或问题中的关键词并赋予不同的答案来生成大量反事实训练样本,从而提高模型的视觉可解释性和问题敏感性,进而提高模型性能。在模型 LMH 的基 - RUBi:减少视觉问答中单模态偏见
提出了一种新的学习策略 RUBi,它减少了任何 VQA 模型中的偏差。通过使用语言模型捕捉语言偏见,并影响基础 VQA 模型的预测来动态调整损失,强制模型同时使用两种输入模态,以克服训练集分布之外的数据低效问题。在特定测试数据集上取得了当前 - 在视觉问答中量化和缓解语言先验问题
本文针对视觉问答技术所面临的语言先验问题,设计了一个度量指标并提出了一种得分正则化模块,该模块采用成对学习方法,可以缓解语言先验问题,并提高骨干模型的性能。