视觉问答中语言模态的实证研究
研究大规模多模态数据上预训练的 Vision-and-Language (V&L) 模型在视觉问答 (VQA) 任务中存在代表训练数据的样本分布偏移所造成的 OOD 性能问题,而模型学习的是解决基准测试而不是高层次的技能。本文通过考虑在不同设置下 (如分类和开放性文本生成) 两种预训练的 V&L 模型性能的全面评估,证明生成模型在大多数情况下对数据分布变化不太敏感,并在测试基准中表现更好。另外,我们发现多模态预训练可以提高大多数设置下的 OOD 性能。最后,本文重新审视了自动 VQA 评估度量的假设,并从经验上证明它们的严格性会反复惩罚模型的正确响应。
May, 2022
本文针对视觉问答技术所面临的语言先验问题,设计了一个度量指标并提出了一种得分正则化模块,该模块采用成对学习方法,可以缓解语言先验问题,并提高骨干模型的性能。
May, 2019
本文介绍了一种同时减少 VQA 系统中视觉和语言偏差的方法,并推出了一种解释策略,最终在 VQA-CP v2 数据集上取得了比现有方法更好的结果。
May, 2023
该研究探讨了跨语言视觉问答的许多方面,包括输入数据、微调和评估方法,研究了不同多语言多模态变压器下不同问题类型的交互。该研究还针对训练数据和模型进行了广泛的分析,旨在进一步了解为什么在某些问题类型和语言中仍存在零 - shot 效果差距,从而指导多语言 VQA 的进一步发展。
Feb, 2022
本文提出了一种新颖的正则化方法,通过引入一个仅装载问题的对手模型并在视觉贡献约束之后训练视觉问答模型,取得了在多个基础模型上明显提高的效果,并在标准 VQA 任务中表现出少得多的准确率下降,从而降低了语言偏差的影响。
Oct, 2018
本研究探讨了多语言视觉语言模型在跨语言环境中表现欠佳的情况,并提出了三种策略以提高它们在零 - shot 跨语言视觉问答任务中的性能。实验证明,该 Fine-tuning 策略取得了一致的效果。
Sep, 2022
本文提出了一种新的因果推断框架来缓解视觉问答模型中的语言偏见,可以从整体上减少语言上对回答结果的直接影响,实验结果表明,该框架可以适用于各种 VQA 问答模型,在均衡的 VQA v2 数据集上表现稳定, 同时在语言相关的 VQA-CP 数据集上达到有竞争力的表现。
Jun, 2020
该论文训练了一个视觉问答系统,使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统,该数据集使用模板自动生成,模型的最高准确性超过了人类专家水平。
Aug, 2022
近期,大型语言模型 (LLM) 的进展促进了多模态 LLM (MLLM) 的发展。虽然 MLLM 具有令人印象深刻的能力,但往往过于依赖单模态偏见(例如,语言偏见和视觉偏见),导致在复杂的多模态任务中回答错误。为了研究这个问题,我们提出了一个因果框架来解释视觉问答 (VQA) 问题中的偏见。在我们的框架中,我们设计了一个因果图来阐明 MLLMs 在 VQA 问题上的预测,并通过深入的因果分析评估偏见的因果效应。受到因果图的启发,我们引入了一个名为 MORE 的新数据集,包含了 12,000 个 VQA 实例。该数据集旨在挑战 MLLMs 的能力,需要进行多跳推理和克服单模态偏见。此外,我们提出了两种策略来减轻单模态偏见和增强 MLLMs 的推理能力,包括针对有限访问 MLLMs 的 “分解 - 验证 - 回答” (DeVA) 框架以及通过微调改进开源 MLLMs。广泛的定量和定性实验为未来的研究提供了宝贵的见解。
Mar, 2024
本研究介绍了一种自监督学习框架来解决视觉问答模型中固有数据偏差问题。我们利用自动生成的标签数据来平衡数据偏差,提出一种自监督辅助任务来减少语言先验的影响,从而提高 VQA 模型的准确性,无需引入额外的可视化注释。实验结果表明,我们的方法在常用基准 VQA-CP v2 上将整体准确性从 49.50%提高到 57.59%,可以将基于注释的方法的性能提高 16%,而无需使用外部注释。
Dec, 2020