视觉 Transformer 在动作识别中的应用：一份调研报告

Sep, 2022

视觉 Transformer 在动作识别中的应用：一份调研报告

Vision Transformers for Action Recognition: A Survey

Anwaar Ulhaq, Naveed Akhtar, Ganna Pogrebna, Ajmal Mian

TL;DR本文针对视觉 transformer 在人体动作识别领域的研究进展进行了综述，主要就其架构、模态、目标、编码、降维、自监督学习、评估指标等方面展开阐述，并探讨了其存在的挑战和未来发展方向。

Abstract

vision transformers are emerging as a powerful tool to solve computer vision problems. Recent techniques have also proven the efficacy of transformers beyond the image domain to solve numerous video-related tasks. Among those, →

vision transformers human action recognition spatio-temporal data optimization evaluation metric

发现论文，激发创造

动作识别中的 Transformer: 时序模型综述

本文主要介绍了基于 transformers 模型的深度学习方法，用于模拟时间上的变化进行动作识别的研究进展和应用挑战。

Dec, 2022

视觉中的 Transformer：一项综述

本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾，包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点，并提出了未来的研究方向。

Jan, 2021

视频动作转换网络

本文介绍了行动转换器模型用于识别和定位视频剪辑中的人类动作，使用 Transformer 风格的架构聚合人物周围的时空背景特征，通过高分辨率、个性化、类别不可知的查询，该模型自动学习跟踪个人并从他人的动作中获取语义上下文

Dec, 2018

视频 Transformer: 综述

该研究调查了 Transformer 模型在建模视频方面的使用，并分析了在处理视频的输入级别时如何更高效地减少冗余、重新引入有用的归纳偏见以及捕捉长期的时间动态，探索了有效的自监督学习策略，表明在视频的行动分类基准测试中，与 3D ConvNets 相比，它们具有更低的计算复杂度。

Jan, 2022

自动驾驶中视觉变形器研究综述：现状和未来发展方向

该论文综述探讨了视觉 Transformer 模型在自动驾驶中的应用，重点研究了自我注意力、多头注意力和编码器 - 解码器架构等基本概念，并比较了它们在目标检测、分割、行人检测、车道检测等应用中的架构优点和局限性，最后展望了视觉 Transformer 在自动驾驶中的未来研究方向。

Mar, 2024

从 CNN 到 Transformers 的多模态人体动作识别：一项调查

多模态人体动作识别的综述研究，重点关注多模态数据融合设计方面的经典和新兴技术，分析了卷积神经网络和 Transformer 建模方法在该问题上的流行趋势和更高效的模型设计选择，并讨论了实践模型训练中的有前景的架构和融合设计选择，以及多模态数据集的规模和评估视角，提出了多模态人体动作识别的挑战与未来发展方向。

May, 2024

关于视觉 Transformer 的调查

本文回顾了将 Transformer 应用于计算机视觉任务中的视觉 Transformer 模型，并分为不同任务类别，分析它们的优点和缺点，同时也介绍了将 Transformer 应用到实际设备应用的有效方法。最后，本文还探讨了计算机视觉中的自注意机制以及视觉 Transformer 面临的挑战及进一步研究方向。

Dec, 2020

视觉 Transformer 综述

本文综述了超过一百种不同的视觉 Transformer 根据三个基本的计算机视觉任务和不同的数据流类型，提出了一个分类法来组织代表性的方法，评估和比较所有这些现有的视觉 Transformers 在不同的配置下，并揭示一系列的重要但未开发的方面，最后指出了三个有前途的研究方向。

Nov, 2021

图像分类任务中视觉 Transformer 的全面研究

综述了关于视觉变换器用于图像分类的现有研究，包括图像分类数据集，视觉变换器模型的发展历程和未来研究机会。

Dec, 2023

面向 EPIC-KITCHENS-100 动作识别的视频视觉 Transformer 训练

本文介绍了一种训练更强大的视频视觉变换器的经验结果，使用了诸如增强、分辨率和初始化等技术，并在 EPIC-KITCHENS-100 数据集上进行了探索，单个 ViViT 模型在验证集上取得了 47.4% 的性能，超过原始文献报告的 3.4%。

Jun, 2021