视频 Transformer 用于分割的理解：应用和可解释性的调查

Oct, 2023

视频 Transformer 用于分割的理解：应用和可解释性的调查

Understanding Video Transformers for Segmentation: A Survey of Application and Interpretability

Rezaul Karim, Richard P. Wildes

TL;DR视频分割是一个广泛的研究领域，重点研究基于 Transformers 的模型、解释性方法、时序动态和研究方向。

Abstract

video segmentation encompasses a wide range of categories of problem formulation, e.g., object, scene, actor-action and multimodal video segmentation, for delineating task-specific scene components with pixel-level masks. Recently, approaches in this research area shifted from concentr

video segmentation transformer-based models interpretability methods temporal dynamics research areas

发现论文，激发创造

基于 Transformer 的视觉分割：一份综述

本文综述了基于 transformer 的视觉分割技术，总结了近期的进展，详细介绍了各种方法设计和应用，并对该领域的未来研究方向进行了探讨。

Apr, 2023

视频 Transformer: 综述

该研究调查了 Transformer 模型在建模视频方面的使用，并分析了在处理视频的输入级别时如何更高效地减少冗余、重新引入有用的归纳偏见以及捕捉长期的时间动态，探索了有效的自监督学习策略，表明在视频的行动分类基准测试中，与 3D ConvNets 相比，它们具有更低的计算复杂度。

Jan, 2022

通过通用概念发现理解视频变形器

本研究探讨了基于视频的 Transformer 表征的概念可解释性问题，通过自动发现高级时空概念，系统性地解决了视频模型中动态概念的识别挑战，并提出了 Video Transformer Concept Discovery (VTCD) 算法，从而揭示了不受限视频模型中的时空推理机制和以物体为中心的表示，进而证明 VTCD 可以用于提升精细化任务的模型性能。

Jan, 2024

视觉 Transformer 综述

本文综述了超过一百种不同的视觉 Transformer 根据三个基本的计算机视觉任务和不同的数据流类型，提出了一个分类法来组织代表性的方法，评估和比较所有这些现有的视觉 Transformers 在不同的配置下，并揭示一系列的重要但未开发的方面，最后指出了三个有前途的研究方向。

Nov, 2021

视觉中的 Transformer：一项综述

本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾，包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点，并提出了未来的研究方向。

Jan, 2021

视觉 Transformer 的可解释性：综述与新的观点

本研究探讨了用于视觉 Transformer 的不同解释性方法，并提出了根据其动机、结构和应用场景进行分类的分类法。此外，还提供了用于比较解释结果的综合评价标准，以及解释性工具和框架。最后，本文突出了可以增强视觉 Transformer 可解释性的重要但未被开发的方面，并提出了未来需进一步研究的方向。

Nov, 2023

视觉 Transformer 在动作识别中的应用：一份调研报告

本文针对视觉 transformer 在人体动作识别领域的研究进展进行了综述，主要就其架构、模态、目标、编码、降维、自监督学习、评估指标等方面展开阐述，并探讨了其存在的挑战和未来发展方向。

Sep, 2022

图像分类任务中视觉 Transformer 的全面研究

综述了关于视觉变换器用于图像分类的现有研究，包括图像分类数据集，视觉变换器模型的发展历程和未来研究机会。

Dec, 2023

ViViT: 一种视频视觉 Transformer

本研究提出一种基于纯 Transformer 模型的视频分类方法，采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记，并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列，我们提出了一些高效的模型变体，可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效，但我们展示了如何有效规范化模型，并利用预训练的图像模型，使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究，并在多个视频分类基准测试中实现了最先进的结果，包括 Kinetics 400 和 600，Epic Kitchens，Something-Something v2 和 Moments in Time，优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究，我们在以下链接中发布了代码。

Mar, 2021

关于视觉 Transformer 的调查

本文回顾了将 Transformer 应用于计算机视觉任务中的视觉 Transformer 模型，并分为不同任务类别，分析它们的优点和缺点，同时也介绍了将 Transformer 应用到实际设备应用的有效方法。最后，本文还探讨了计算机视觉中的自注意机制以及视觉 Transformer 面临的挑战及进一步研究方向。

Dec, 2020