面向生成视觉问答的灵活评估
该研究引入了一个新的视觉问答任务,即识别对原问题产生不同回答的图像,并通过这一任务来评估现有的VQA模型。尽管作者的模型在这一任务上表现出色,但研究结果表明,现有的最先进VQA模型所学习的多模态表示对于这一任务的表现并没有显著贡献,这表明在VQA基准测试上表现良好并不意味着具备更广泛的视觉语义推理能力。
Jun, 2018
本研究提出了一种基于机器阅读理解的方法,通过将视觉和文本特征统一到自然语言中以解决视觉问答中的多模态特征融合问题,并能够处理大规模外部知识库等基于知识的问题。实验结果表明,该方法在三个数据集上性能具有可比性,此为利用文本和自然语言处理技术解决视觉问答问题的一步。
Nov, 2018
该论文研究了视觉问答算法,发现现有算法在自然图像理解和推理两个领域上不能很好地综合运用。作者提出了一种新的VQA算法,能够在这两个领域上达到或超越现有算法的水平。
Mar, 2019
研究大规模多模态数据上预训练的 Vision-and-Language (V&L) 模型在视觉问答 (VQA) 任务中存在代表训练数据的样本分布偏移所造成的 OOD 性能问题,而模型学习的是解决基准测试而不是高层次的技能。本文通过考虑在不同设置下 (如分类和开放性文本生成) 两种预训练的 V&L 模型性能的全面评估,证明生成模型在大多数情况下对数据分布变化不太敏感,并在测试基准中表现更好。另外,我们发现多模态预训练可以提高大多数设置下的 OOD 性能。最后,本文重新审视了自动 VQA 评估度量的假设,并从经验上证明它们的严格性会反复惩罚模型的正确响应。
May, 2022
借助大型语言模型的上下文学习能力,我们提出了一个更好的VQA评估指标,该指标在多个VQA模型和基准测试中与人类判断更好地相关,希望广泛采用我们的指标以更好地估计VQA任务的研究进展。
Oct, 2023
通过调查Visual Question Answering(视觉问题回答)领域的复杂性,本研究提供了对VQA数据集和方法的详细分类,展示了该领域的最新趋势、挑战和改进方向,并将VQA推广到多模态问答,探索与VQA相关的任务,并提出了一系列未来研究的开放性问题。
Nov, 2023
视觉问题回答(VQA)模型旨在展示视觉和文本推理能力,然而,由于缺乏综合的基准数据集,它们在实际应用中受到了限制。我们提出了VQA-GEN,这是第一个通过引入转换流程生成的多模态基准数据集,用于评估VQA在视觉和文本领域的转换能力。实验证明VQA-GEN数据集揭示了现有方法对于多模态转换的漏洞,验证了全面的多模态转换对于稳健的VQA泛化是至关重要的。在VQA-GEN上训练的模型展现了跨领域和领域内性能的提升,验证了VQA-GEN的价值。此外,我们分析了转换技术对模型泛化性能的重要性。
Nov, 2023
通过提供来自知识图谱中提取的相关外部知识,我们通过增强问题并实现可变数量的三元组,为知识增强的视觉问答模型带来了平均4.75%的准确匹配得分提升,并展示了其在推理能力和泛化能力方面的优势。
Jun, 2024
本研究针对当前多模态大型语言模型(MLLM)评估中存在的数据集问题,如偏见和虚假关联,提出了一种新方法。我们首次使用改进的数据集评估多个MLLM,揭示了许多模型的潜在缺陷,并且我们的代码已整合于LAVIS框架中,便于今后模型的快速评估。
Aug, 2024
本文解决了在实际应用中标准化评估视觉-语言模型(VLMs)以满足视觉问答(VQA)任务的挑战。作者提出了一种新颖的评估框架和数据集,并开发了GoEval评估指标,通过实验发现没有单一模型在所有领域表现最佳,这为VLM的选择提供了实用指导,具有重要的应用前景。
Sep, 2024