通过通用概念发现理解视频变形器

Jan, 2024

通过通用概念发现理解视频变形器

Understanding Video Transformers via Universal Concept Discovery

Matthew Kowal, Achal Dave, Rares Ambrus, Adrien Gaidon, Konstantinos G. Derpanis...

TL;DR本研究探讨了基于视频的 Transformer 表征的概念可解释性问题，通过自动发现高级时空概念，系统性地解决了视频模型中动态概念的识别挑战，并提出了 Video Transformer Concept Discovery (VTCD) 算法，从而揭示了不受限视频模型中的时空推理机制和以物体为中心的表示，进而证明 VTCD 可以用于提升精细化任务的模型性能。

Abstract

This paper studies the problem of concept-based interpretability of transformer representations for videos. Concretely, we seek to explain the decision-making process of video transformers based on high-level, sp

concept-based interpretability video transformers concept discovery spatio-temporal reasoning mechanisms model performance improvement

发现论文，激发创造

视频 Transformer 用于分割的理解：应用和可解释性的调查

视频分割是一个广泛的研究领域，重点研究基于 Transformers 的模型、解释性方法、时序动态和研究方向。

Oct, 2023

使用 Transformer 的视频传播经验研究

本研究介绍了 Video Diffusion Transformer（VDT），它首次在基于扩散的视频生成中提出了 Transformer 的使用，通过模块化的时间和空间注意机制实现了 Transformer 块，并能够通过简单的令牌空间串联实现灵活的条件信息，VDT 的模块化设计促进了一种时空解耦的训练策略，其在视频生成、预测和动力学建模（即基于物理的 QA）任务上，包括自动驾驶，人类行动和基于物理模拟等领域的应用，表现出了出色的性能。

May, 2023

视频 Transformer: 综述

该研究调查了 Transformer 模型在建模视频方面的使用，并分析了在处理视频的输入级别时如何更高效地减少冗余、重新引入有用的归纳偏见以及捕捉长期的时间动态，探索了有效的自监督学习策略，表明在视频的行动分类基准测试中，与 3D ConvNets 相比，它们具有更低的计算复杂度。

Jan, 2022

时间至上：为视频 Transformer 提供时间自监督

本文提出了一种面向视频任务的基于 Transformer 的模型，通过自监督学习并增加对视频帧之间时间轴的考虑，有效地消除了空间偏差，提升了模型对于时间动态的表征能力并实现了很好的视频分类效果。

Jul, 2022

SegDiscover：基于无监督语义分割的视觉概念发现

SegDiscover 是一个无人监督语义分割框架，通过从原始图像生成概念原语、在自监督预训练编码器的潜在空间中进行聚类以及神经网络平滑来发现语义上有意义的视觉概念。实验结果表明，该方法可以在单个图像中发现多个概念，并在包括 Cityscapes 和 COCO-Stuff 等复杂数据集上优于最先进的无监督方法。此方法还可以作为神经网络解释工具使用，通过比较不同编码器得出结果。

Apr, 2022

ViViT: 一种视频视觉 Transformer

本研究提出一种基于纯 Transformer 模型的视频分类方法，采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记，并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列，我们提出了一些高效的模型变体，可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效，但我们展示了如何有效规范化模型，并利用预训练的图像模型，使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究，并在多个视频分类基准测试中实现了最先进的结果，包括 Kinetics 400 和 600，Epic Kitchens，Something-Something v2 和 Moments in Time，优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究，我们在以下链接中发布了代码。

Mar, 2021

自监督视频表示学习的静态和动态概念

该研究提出了一种新的自监督视频表示学习方案，分别学习全局视觉概念和局部特征，使用交叉注意力机制聚合不同概念的详细本地特征来执行局部概念对比，并取得了 UCF-101、HMDB-51 和 Diving-48 的最新成果。

Jul, 2022

自监督视频 Transformer

本研究提出了一种基于未标记视频数据进行自监督训练的视频 Transformer 方法。通过使用不同的空间大小和帧速率创建局部和全局的时空视图，实现了视频内 actions 的时空不变性，并且该方法不再需要使用负样本或专用存储器。该方法在动作识别基准数据集（Kinetics-400，UCF-101，HMDB-51 和 SSv2）上表现出色，并能够在小批量的情况下更快地收敛。

Dec, 2021

使用 Transformer 进行视觉定位

该论文提出了一种基于 Transformer 编码器 - 解码器的视觉 grounding 方法，通过在不损伤位置定位能力的前提下，在文本描述的指导下学习语义鉴别的视觉特征，具有强大的文本 - 视觉语境语义捕捉能力。实验结果表明，在保持快速推理速度的同时，该方法在五个基准上优于现有的提案 - free 方法。

May, 2021

生成式视频变压器：物体能否成为语言的基本单位？

本文介绍了一种利用 “Object-Centric” 思想的视频生成器 ——Object-Centric Video Transformer（OCVT）模型，该模型通过将场景分解为对象来学习多个相互作用对象的复杂空间 - 时间动态，相较于基于像素的模型，其显著提高了记忆效率，能够在单个 48GB GPU 上训练长度达 70 帧的视频，且在 CATER 任务上取得了最新的实验结果。

Jul, 2021