通过引入细粒度的自然语言中的时间概念的分类,利用反事实视频描述来解开静态和时间信息之间的相关性,并评估典型的视频语言理解模型,揭示了对于视频语言研究中时间元素的更大重视的需求。
Nov, 2023
介绍了一个新的机遇 Compositional Temporal Grounding 任务和两个新的数据集拆分,即 Charades-CG 和 ActivityNet-CG,用于测试模型的组合泛化能力,提出了一个变异的跨图推理框架来应对这一挑战。
Mar, 2022
通过建立人工智能系统,以便对视觉数据进行推理和回答问题,我们需要有诊断测试来分析进展并发现缺点。该研究提出了一种诊断数据集,测试了各种视觉推理能力,包含最小的偏差并具有详细注释,描述每个问题需要的推理类型,用于分析各种现代视觉推理系统,提供了新的洞见,以及它们的能力和限制。
Dec, 2016
我们提出了一个用于研究动作识别假设并定量测试的框架,从而推进视频动作识别中深度神经网络的可解释性研究。
Apr, 2024
本文提出一种新颖的机器学习模型,通过对主体 - 对象交互的动态学习来探究行为的组成性。该模型能够精确推理组成对象的几何关系和动作代理之间的关系,具有较好的应用前景。在使用 Something-Something 数据集进行训练时,我们提出了一种新的组合性行为识别任务,成功验证了该模型的有效性。
Dec, 2019
该研究通过构建一个基于 ' 时间数据集 ' 的分类器来研究理解视觉世界如何随时间变化以及在视频理解中,Temporal 与 Static Action Classes 的区别;并表明更多的时间数据可以帮助提高模型性能。
Jul, 2019
本论文针对计算机视觉模型做了一个新的基准,名为 Action Genome Question Answering (AGQA),并提供了 3.9M 个问题答案对的平衡子集,以最小化偏倚。AGQA 引入了多个训练 / 测试集来测试各种推理能力,包括新颖组合的泛化,间接引用以及更多的组合步骤。这项研究发现,最好的模型仅能比利用语言偏见的非视觉基准优秀一些;并且现有的模型都无法推广到训练中未见过的新颖组合。
Mar, 2021
本文研究了基于物体的方法解决动作识别问题,提出了一种基于多头注意力的配置分析方法,证明将布局信息与外观信息相结合可以提高方法的识别准确率。
Nov, 2021
该研究提出组合动作识别的方法,并使用时空交互编码器捕捉人体 - 物体之间的交互作用并将其与视频信息相结合。该方法在多个数据集上获得了先进的性能,表明显式地对人体 - 物体之间的交互行为建模是有效的。
May, 2023
研究自监督视频表示学习中的对比方法,提出一种考虑数据增强变量的对比学习框架,以提高针对时间信息进行的微粒视频动作识别的性能,并在多个视频基准测试中达到最先进水平。
Apr, 2021