动作识别中的 Transformer: 时序模型综述
本文针对视觉 transformer 在人体动作识别领域的研究进展进行了综述,主要就其架构、模态、目标、编码、降维、自监督学习、评估指标等方面展开阐述,并探讨了其存在的挑战和未来发展方向。
Sep, 2022
本文提出一种基于 actor-transformer model 认知视频中的个人行为和组群活动的模型,并通过 2D 姿态网络和 3D CNN 等方式提供丰富的个人动态和静态信息表示,从而在公开数据集上取得了显著的效果。
Mar, 2020
本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾,包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点,并提出了未来的研究方向。
Jan, 2021
本文介绍了一种新颖的时空变换网络,其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联,使用运动感知网络编码视频帧中的动作位置,并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系,该方法在四个时空动作数据集上优于最先进的解决方案:AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。
May, 2024
该研究旨在通过将视频动作识别和 2D 人体姿势估计网络结合为一个模型,改善时间定位和分类准确性表现。最终,通过从不同的摄像头视角获取信息并消除误报,该模型在 2023 年 NVIDIA AI 城市挑战的自然驾驶行为识别中表现出色,实现了优化的区域覆盖得分 0.5079。
Mar, 2024
测试和评估在时间序列数据上应用 Transformer 模型的有效性,通过调整超参数、预处理数据、应用降维或卷积编码等方式来解决异常检测、上下文感知和空间复杂性问题,同时探索修改现有解决方案以实现更高性能和学习广义知识的方法。
Aug, 2021
本文提出了一种新的多模态转换器网络,用于检测未修剪视频中的动作,利用新的多模态注意机制计算不同空间和动态模态组合之间的相关性,并提出一种算法来纠正相机运动引起的动态变形,该算法在 THUMOS14 和 ActivityNet 两个公共基准测试上优于现有方法,在我们的新教育活动数据集上进行了比较实验,该数据集包括从小学捕捉的大量具有挑战性的课堂视频。
May, 2023
本文提出一种基于 soft attention 的模型,用于对视频中的动作进行识别,该模型使用多层循环神经网络 (RNNs) 和长短期记忆 (LSTM) 单元,学习有选择地专注于视频帧的某些部分,通过几个瞥见来对视频进行分类。该模型主要学习帧中哪些部分与目标任务相关,并赋予它们更高的重要性。我们在 UCF-11 (YouTube Action)、HMDB-51 和 Hollywood2 数据集上评估了该模型,并分析了模型在不同场景和不同动作下注意力的聚焦。
Nov, 2015
本文提出了一种新的端到端训练 Transformer 模型的方法,能够高效地捕捉长期时空依赖性,在零样本学习方面获得了最新进展,通过避免训练和测试类之间的重叠,提出了一个新的实验设置方案,该方法在 UCF-101、HMDB-51 和 ActivityNet 数据集上的 top-1 准确性明显优于现有技术的水平。
Mar, 2022
本文提出一种新颖的基于 Transformer 的架构,用于生成 3D 人体运动的模型。该模型能够学习高维度骨骼关节的嵌入,通过解耦的时间和空间自注意机制使得生成的姿态在时间上是连贯的。实验结果表明该模型能够准确地生成短期预测并在长期时间跨度内生成合理的运动序列。
Apr, 2020