ActionFormer：使用 Transformers 定位行为片段

ECCVFeb, 2022

ActionFormer：使用 Transformers 定位行为片段

ActionFormer: Localizing Moments of Actions with Transformers

Chenlin Zhang, Jianxin Wu, Yin Li

TL;DRActionFormer 是一种基于 Transformer 网络的模型，采用了多尺度特征表示和本地自我注意力机制来识别视频中的动作。它在 THUMOS14 上取得了 71.0％ mAP，在 ActivityNet 1.3 和 EPIC-Kitchens 100 中也表现出色。

Abstract

self-attention based Transformer models have demonstrated impressive results for image classification and object detection, and more recently for video understanding. Inspired by this success, we investigate the application of →

actionformer transformer networks temporal action localization multiscale feature representation self-attention

发现论文，激发创造

ASFormer：用于动作分割的 Transformer

本文提出了一种名为 ASFormer 的高效 Transformer 模型，通过加入局部连接归纳先验、应用预定的分层表示模式和精心设计的解码器来解决应用 Transformer 模型于动作分割任务时遇到的问题，并在三个公共数据集上进行了广泛实验。

Oct, 2021

DirecFormer：一种基于 Transformer 的定向注意力方法用于鲁棒动作识别

通过引入有序时序学习问题和引入新的有向注意力机制，提出了一个新的基于 Transformer 的框架来解决行为识别问题，并在三个标准大规模基准测试上实现了与最近的行为识别方法相比的最先进的结果。

Mar, 2022

TALLFormer：基于长期记忆 Transformer 的时间动作定位

提出 TALLFormer, 一种内存高效、可训练的时间动作定位 Transformer 方法，其长期记忆机制消除了在每个训练迭代中处理数百个冗余视频帧的需要，从而显著降低了 GPU 内存消耗和训练时间。

Apr, 2022

ActNetFormer：半监督视频动作识别的 Transformer-ResNet 混合方法

提出了一种使用跨体系伪标签与对比度学习的半监督行为识别方法，其中结合 3D 卷积神经网络（3D CNN）和视频变换器（VIT）的独特方法能够有效捕捉行为的局部和全局上下文信息，从而在标记数据的一小部分情况下实现了卓越的性能。

Apr, 2024

视频动作转换网络

本文介绍了行动转换器模型用于识别和定位视频剪辑中的人类动作，使用 Transformer 风格的架构聚合人物周围的时空背景特征，通过高分辨率、个性化、类别不可知的查询，该模型自动学习跟踪个人并从他人的动作中获取语义上下文

Dec, 2018

交互变换器：人类反应生成

本研究提出了一种基于交互 Transformer 的新模型，该模型结合了时间和空间的注意力机制，通过使用图形和交互距离模块进一步提高了空间注意力的性能，可用于生成更复杂和长期的交互动作。

Jul, 2022

AgentFormer: 面向多智能体时空预测的智能体感知 Transformer

论文提出了一个新的 Transformer 模型 AgentFormer，该模型可以联合模拟时间和社交两个维度，用于预测多智能体行为，同时考虑了多智能体的影响以及不确定性。该模型具有良好的性能，并在公共数据集上取得了 state-of-the-art 的结果。

Mar, 2021

SeqFormer: 序列 Transformer 用于视频实例分割

本文介绍了 SeqFormer，一种基于视频实例分割的模型，通过注意力机制捕捉视频帧之间的关系，定位每帧的实例并聚合时间信息，从而实现自然的实例跟踪并预测动态遮罩序列，结合 Swin Transformer 可获得更高的 AP，是视频实例分割领域的强基线模型。

Dec, 2021

探究用于时序动作定位的更强特征

本文研究了时域动作定位的方法，发现基于变压器的方法可以实现更好的分类性能，但不能生成准确的动作提案，最后通过以较高的帧分辨率提取特征来提高时域动作定位的性能，最终在 CVPR2021HACS 挑战中取得了第一名。

Jun, 2021

一种基于语义和运动感知的时空转换网络实现动作检测

本文介绍了一种新颖的时空变换网络，其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联，使用运动感知网络编码视频帧中的动作位置，并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系，该方法在四个时空动作数据集上优于最先进的解决方案：AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。

May, 2024