视频 Transformer: 综述

Jan, 2022

Video Transformers: A Survey

Javier Selva, Anders S. Johansen, Sergio Escalera, Kamal Nasrollahi, Thomas B. Moeslund...

TL;DR该研究调查了 Transformer 模型在建模视频方面的使用，并分析了在处理视频的输入级别时如何更高效地减少冗余、重新引入有用的归纳偏见以及捕捉长期的时间动态，探索了有效的自监督学习策略，表明在视频的行动分类基准测试中，与 3D ConvNets 相比，它们具有更低的计算复杂度。

Abstract

transformer models have shown great success handling long-range interactions, making them a promising tool for modeling video. However, they lack inductive biases and scale quadratically with input length. These

transformer models modeling video inductive biases temporal dynamics self-supervised learning

发现论文，激发创造

视觉中的 Transformer：一项综述

本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾，包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点，并提出了未来的研究方向。

Jan, 2021

视觉 Transformer 在动作识别中的应用：一份调研报告

本文针对视觉 transformer 在人体动作识别领域的研究进展进行了综述，主要就其架构、模态、目标、编码、降维、自监督学习、评估指标等方面展开阐述，并探讨了其存在的挑战和未来发展方向。

Sep, 2022

ViViT: 一种视频视觉 Transformer

本研究提出一种基于纯 Transformer 模型的视频分类方法，采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记，并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列，我们提出了一些高效的模型变体，可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效，但我们展示了如何有效规范化模型，并利用预训练的图像模型，使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究，并在多个视频分类基准测试中实现了最先进的结果，包括 Kinetics 400 和 600，Epic Kitchens，Something-Something v2 和 Moments in Time，优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究，我们在以下链接中发布了代码。

Mar, 2021

Video Swin Transformer

本文介绍了一种针对视频领域的区域局部性 Transformer 架构，通过使用 Swin Transformer 设计来实现，同时利用预训练模型的威力，取得了行动识别和时间建模等广泛的视频识别基准的最新准确性。

Jun, 2021

视频 Transformer 用于分割的理解：应用和可解释性的调查

视频分割是一个广泛的研究领域，重点研究基于 Transformers 的模型、解释性方法、时序动态和研究方向。

Oct, 2023

时间至上：为视频 Transformer 提供时间自监督

本文提出了一种面向视频任务的基于 Transformer 的模型，通过自监督学习并增加对视频帧之间时间轴的考虑，有效地消除了空间偏差，提升了模型对于时间动态的表征能力并实现了很好的视频分类效果。

Jul, 2022

视觉 Transformer 综述

本文综述了超过一百种不同的视觉 Transformer 根据三个基本的计算机视觉任务和不同的数据流类型，提出了一个分类法来组织代表性的方法，评估和比较所有这些现有的视觉 Transformers 在不同的配置下，并揭示一系列的重要但未开发的方面，最后指出了三个有前途的研究方向。

Nov, 2021

时间序列中的 Transformers: 一项综述

本文系统地回顾了 Transformer 在时间序列建模中的运用，总结了其优点、局限性以及在网络结构、应用方面的适应性和修改，并对常见的时间序列任务进行了分类，包括预测、异常检测和分类。通过实证分析，研究了 Transformer 在时间序列中的表现，并提出了未来研究方向。这是第一篇全面系统地总结 Transformer 近期在时间序列数据建模领域进展的论文。

Feb, 2022

关于视觉 Transformer 的调查

本文回顾了将 Transformer 应用于计算机视觉任务中的视觉 Transformer 模型，并分为不同任务类别，分析它们的优点和缺点，同时也介绍了将 Transformer 应用到实际设备应用的有效方法。最后，本文还探讨了计算机视觉中的自注意机制以及视觉 Transformer 面临的挑战及进一步研究方向。

Dec, 2020

自动驾驶中视觉变形器研究综述：现状和未来发展方向

该论文综述探讨了视觉 Transformer 模型在自动驾驶中的应用，重点研究了自我注意力、多头注意力和编码器 - 解码器架构等基本概念，并比较了它们在目标检测、分割、行人检测、车道检测等应用中的架构优点和局限性，最后展望了视觉 Transformer 在自动驾驶中的未来研究方向。

Mar, 2024