CATER：组合动作和时间推理诊断数据集

ICLROct, 2019

CATER：组合动作和时间推理诊断数据集

CATER: A diagnostic dataset for Compositional Actions and TEmporal Reasoning

Rohit Girdhar, Deva Ramanan

TL;DR本文通过构建名称为 CATER 的视频数据集，从而提供了深入理解深度视频架构的诊断工具。在该数据集中，场景和对象的结构充满着隐含的偏见，这可以掩盖时间结构的变化，因此需要时空理解才能真正解决。

Abstract

computer vision has undergone a dramatic revolution in performance, driven in large part through deep features trained on large-scale supervised datasets. However, much of these improvements have focused on stati

computer vision deep features video understanding spatiotemporal models cater

发现论文，激发创造

VITATECS：用于视频语言模型的时间概念理解诊断数据集

通过引入细粒度的自然语言中的时间概念的分类，利用反事实视频描述来解开静态和时间信息之间的相关性，并评估典型的视频语言理解模型，揭示了对于视频语言研究中时间元素的更大重视的需求。

Nov, 2023

结构化变分跨图对应学习的组合时序对齐

介绍了一个新的机遇 Compositional Temporal Grounding 任务和两个新的数据集拆分，即 Charades-CG 和 ActivityNet-CG，用于测试模型的组合泛化能力，提出了一个变异的跨图推理框架来应对这一挑战。

Mar, 2022

CLEVR：一个用于组合语言和初级视觉推理的诊断数据集

通过建立人工智能系统，以便对视觉数据进行推理和回答问题，我们需要有诊断测试来分析进展并发现缺点。该研究提出了一种诊断数据集，测试了各种视觉推理能力，包含最小的偏差并具有详细注释，描述每个问题需要的推理类型，用于分析各种现代视觉推理系统，提供了新的洞见，以及它们的能力和限制。

Dec, 2016

探索视频动作识别中的可解释性

我们提出了一个用于研究动作识别假设并定量测试的框架，从而推进视频动作识别中深度神经网络的可解释性研究。

Apr, 2024

空间时态交互网络的组合动作识别

本文提出一种新颖的机器学习模型，通过对主体 - 对象交互的动态学习来探究行为的组成性。该模型能够精确推理组成对象的几何关系和动作代理之间的关系，具有较好的应用前景。在使用 Something-Something 数据集进行训练时，我们提出了一种新的组合性行为识别任务，成功验证了该模型的有效性。

Dec, 2019

只有时间能告诉我们：发现用于时间建模的时间数据

该研究通过构建一个基于 ' 时间数据集 ' 的分类器来研究理解视觉世界如何随时间变化以及在视频理解中，Temporal 与 Static Action Classes 的区别；并表明更多的时间数据可以帮助提高模型性能。

Jul, 2019

AGQA：组合式时空推理的基准测试

本论文针对计算机视觉模型做了一个新的基准，名为 Action Genome Question Answering (AGQA)，并提供了 3.9M 个问题答案对的平衡子集，以最小化偏倚。AGQA 引入了多个训练 / 测试集来测试各种推理能力，包括新颖组合的泛化，间接引用以及更多的组合步骤。这项研究发现，最好的模型仅能比利用语言偏见的非视觉基准优秀一些；并且现有的模型都无法推广到训练中未见过的新颖组合。

Mar, 2021

重新审视时空布局以进行组合行为识别

本文研究了基于物体的方法解决动作识别问题，提出了一种基于多头注意力的配置分析方法，证明将布局信息与外观信息相结合可以提高方法的识别准确率。

Nov, 2021

建模空间 - 时间交互以进行组合动作识别

该研究提出组合动作识别的方法，并使用时空交互编码器捕捉人体 - 物体之间的交互作用并将其与视频信息相结合。该方法在多个数据集上获得了先进的性能，表明显式地对人体 - 物体之间的交互行为建模是有效的。

May, 2023

可组合增强编码用于视频表示学习

研究自监督视频表示学习中的对比方法，提出一种考虑数据增强变量的对比学习框架，以提高针对时间信息进行的微粒视频动作识别的性能，并在多个视频基准测试中达到最先进水平。

Apr, 2021