鲁棒视觉问答的生成偏差
本篇研究针对视觉问答 (VQA) 中的语言偏差问题进行了实验分析,提出了一种新的去偏差框架 GGE,该框架将多个有偏差的模型组合起来进行无偏差的基础模型学习,实现了更好地利用视觉信息,并在不使用额外注释的情况下,在 VQA-CP 数据集上达到了最先进的性能。
Jul, 2021
提出了一个名为 MMBS 的对比学习方法,通过去除与偏见相关的信息构建正样本进行训练,从而构建更加鲁棒的视觉问答模型并增加其对理性推理的贡献,同时在 VQA-CP v2 OOD 数据集上取得了竞争性的表现以及在 VQA v2 ID 数据集上保持了鲁棒的性能。
Oct, 2022
本研究探讨了使用生成对抗网络(GANs)、自编码器和注意力机制改进视觉问答(VQA)的创新方法。研究发现,通过利用一个平衡的 VQA 数据集,GAN-based 方法提供了生成与图像和问题相关的答案嵌入的潜力,但在处理较复杂的任务时存在困难。相比之下,基于自编码器的技术专注于学习问题和图像的最佳嵌入,由于在处理复杂问题上能力更强,其结果与 GAN-based 方法相媲美。最后,注意力机制结合多模态紧凑双线性池化(MCB)来解决语言先验和注意力建模问题,但在复杂性和性能之间需要权衡。本研究强调了 VQA 领域的挑战和机遇,并提出了未来研究的方向,包括替代 GAN 的形式和注意力机制。
Apr, 2024
视觉问答研究需要系统能够根据图像和自然语言问题提供准确的自然语言答案。然而,先前的通用 VQA 方法普遍存在记忆训练数据中的偏见而不是学习正确行为(如在预测答案之前进行图像建立联系)。因此,这些方法通常在分布内获得高性能但在分布外获得低性能。最近几年,已经提出了各种数据集和去偏见方法来评估和增强 VQA 的稳健性。本文提供了关于这一新兴领域的首个综述,重点讨论视觉问答中的这些问题。具体来说,首先概述了数据集的发展过程,从分布内和分布外的角度进行了分析。然后,研究了这些数据集使用的评估指标。第三,提出了一种类型学,介绍了现有去偏见方法的发展过程、相似之处与差异、稳健性比较和技术特征。此外,分析和讨论了 VQA 中代表性视觉与语言预训练模型的稳健性。最后,通过对现有文献的彻底审查和实验分析,从各个角度探讨了未来研究的关键领域。
Jul, 2023
本文提出了一种新颖的正则化方法,通过引入一个仅装载问题的对手模型并在视觉贡献约束之后训练视觉问答模型,取得了在多个基础模型上明显提高的效果,并在标准 VQA 任务中表现出少得多的准确率下降,从而降低了语言偏差的影响。
Oct, 2018
本研究提出了一种新的框架来减少 Visual Question Answering 系统中的语言偏差,具体地,在原 VQA 框架中添加了对抗分支和两个正则化器以限制训练过程中的语言偏差,并提出了一种新的性能度量方法来评估语言偏差,实验结果表明该方法简单有效。
Jun, 2023
本研究探讨了一种新的方法来创建先进的视觉问答(VQA)模型,可以在时间泛化上产生成功的结果。通过利用来自 VQAv2 和 MS-COCO 数据集的图像和标题,通过稳定扩散生成新图像。使用这个增强的数据集来测试七个基线和最新的 VQA 模型的组合。该研究的目的是调查几个成功的 VQA 模型的稳健性,评估它们对未来数据分布的性能。分析模型架构,识别改进时间分布偏移下的泛化能力的常见风格选择。这项研究突出了创建大规模未来偏移数据集的重要性,这些数据可以增强 VQA 模型的稳健性,使其未来的同行能够更好地适应时间分布的变化。
Jul, 2023
提出了一种名为 BMBI 的方法,用于减轻多选问题回答模型中的偏见。通过观察一个查询实例对另一个实例的影响来度量查询实例的偏见水平,并将其作为优化目标,形成一个多任务学习设置。引入了一个新的偏见评估度量方法,以全面而敏感的方式量化偏见。实验证明,该方法可应用于多个偏见类别的多个问题回答公式,在不降低问题回答准确性的情况下显著降低了 BBQ 数据集中的 9 个偏见类别的偏见水平。
Oct, 2023