AGQA 2.0:用于组合时空推理的更新基准
本论文针对计算机视觉模型做了一个新的基准,名为 Action Genome Question Answering (AGQA),并提供了 3.9M 个问题答案对的平衡子集,以最小化偏倚。AGQA 引入了多个训练 / 测试集来测试各种推理能力,包括新颖组合的泛化,间接引用以及更多的组合步骤。这项研究发现,最好的模型仅能比利用语言偏见的非视觉基准优秀一些;并且现有的模型都无法推广到训练中未见过的新颖组合。
Mar, 2021
本研究介绍了 ANetQA,这是一个支持对挑战性非剪辑视频进行精细组成式推理的大规模基准测试。与现有的基准测试相比,它通过自动从预注释场景图中生成 QA 对,使得可以对多样化的推理能力进行粒度控制。与 AGQA 相比,ANetQA 的 QA 对具有更细粒度的语义特征,因此可以更好地帮助评估 VideoQA 模型。
May, 2023
GQA 是一个旨在解决以往 VQA 数据集的缺陷问题的实际可视化推理和组成问题回答数据集,它使用场景图结构创建了 2200 万个不同的推理问题,伴随着功能程序共同表示它们的语义,其中包括新的可调平滑技术来缓解问题偏差。贯穿数据集的还有一套新的度量标准,可以评估基本的质量,例如一致性、基础和可信性。
Feb, 2019
本文开发了一个问题分解引擎,能将组合问题分解为子问题的有向无环图。使用问题图,我们评估了三个最先进的模型,并使用一组新的组成一致性指标。 我们发现,这些模型无法正确地通过大多数构图进行推理,或者依赖于错误推理来获得答案,并在中间的推理步骤失败时频繁地自相矛盾或达到高准确度。
Apr, 2022
本文提出了一个自然语言文本中空间推理的问答基准,其中包含更现实的空间现象,并且挑战最先进的语言模型。我们提出了一种远距离监督方法来改善这个任务。具体来说,我们设计语法和推理规则来自动生成视觉场景的空间描述和相应的问答配对。实验证明,进一步预训练语言模型对这些自动生成的数据显著提高了语言模型对空间理解的能力,从而有助于更好地解决两个外部数据集,即 bAbI 和 boolQ。我们希望这项工作能够推动更复杂的文本空间推理模型的研究。
Apr, 2021
我们提出了一个模型无关的视频对齐和答案聚合框架(VA^3),通过整合视频对齐器和答案聚合器模块来增强现有的视觉问答方法的组合一致性和准确性,实验证明我们的框架提高了现有方法的组合一致性和准确性,大大提升了可解释性。
Jul, 2024
该研究提出了一种针对实际视频问答任务的神经符号框架(NS-VideoQA),通过引入场景解析网络(SPN)和符号推理机(SRM),实现了对复合时空问题的高效推理和回答能力的提升。
Apr, 2024
本文提出了三个特别设计用于视频 VQA 的新任务,推出一个新的大型数据集 TGIF-QA,并提出了一种利用空间和时间关注的双 LSTM 方法,证明其在经验评估中的有效性。
Apr, 2017
介绍了 NExT-QA,它是一个具有严谨设计的视频问答基准,旨在将视频理解从描述转化为解释时间动作;通过分析基线和现有的视频问答技术,发现表现最好的方法擅长浅层场景描述,但在因果和时间动作推理方面较弱。通过详细结果和启发式观察,希望 NExT-QA 能引导下一代视频问答研究超越表面的场景描述,实现对视频更深入的理解。
May, 2021