针对未剪辑视频的短期 Transformer 动作检测的调整

Dec, 2023

针对未剪辑视频的短期 Transformer 动作检测的调整

Adapting Short-Term Transformers for Action Detection in Untrimmed Videos

Min Yang, Huan Gao, Ping Guo, Limin Wang

TL;DR设计了一种适应预训练的 ViT 模型作为统一的长视频 Transformer 的新机制，以捕捉不同片段间的精细关系，并保持较低的计算开销和内存消耗，实现高效的时间动作检测。

Abstract

vision transformer (ViT) has shown high potential in video recognition, owing to its flexible design, adaptable self-attention mechanisms, and the efficacy of masked pre-training. Yet, it still remains unclear ho

vision transformer temporal action detection pre-training long-form video transformer cross-snippet propagation

发现论文，激发创造

使用 Transformer 进行端到端时序动作检测

本研究提出了一种基于 Transformer 的时态动作检测方法，通过少量学习嵌入（称为动作查询）从视频中自适应地提取时间上下文信息，并直接预测动作实例的时间间隔和语义标签，通过三种改进提高本地化意识，实现了端到端的学习，并取得了与现有方法相比的卓越性能。

Jun, 2021

ZEETAD：适用于零样本端到端时间动作检测的预训练视觉 - 语言模型的调整

本研究呈现了 ZEETAD，这是一个基于 Transformer 和 CLIP 模块的零样本时间动作检测方法，通过最小程度地更新冻结的 CLIP 编码器，实现对未见过的动作类别的辨别能力增强，并展示了其在零样本时间动作检测和从 ViL 模型到未见动作类别的有效知识传递方面的卓越性能。

Nov, 2023

适应形态：为可扩展视觉识别调整视觉变换器

提出了一种叫做 “AdaptFormer” 的方法，可将预训练的视觉 Transformer 模型快速适应于多个图像和视频识别任务中，在不更新原预训练参数的情况下，只增加不到 2％的额外参数，就能显著提高模型的可迁移性和表现

May, 2022

多模态 Transformer 网络用于动作检测

本文提出了一种新的多模态转换器网络，用于检测未修剪视频中的动作，利用新的多模态注意机制计算不同空间和动态模态组合之间的相关性，并提出一种算法来纠正相机运动引起的动态变形，该算法在 THUMOS14 和 ActivityNet 两个公共基准测试上优于现有方法，在我们的新教育活动数据集上进行了比较实验，该数据集包括从小学捕捉的大量具有挑战性的课堂视频。

May, 2023

动作识别的视频测试时间适应

该研究提出了一种针对空间 - 时间模型的方法，它能够在单个视频样本上进行特征分布对齐，保证了预测的一致性，并且在三个基准行动识别数据集上都表现出极高的性能。

Nov, 2022

稀疏提议优化高质量时序动作检测

本文提出了一种名为 SP-TAD 的方法来应对在时间行为检测上的挑战，其利用了稀疏 proposal 和特征金字塔来构建多尺度特征以准确捕捉行为细节，实验结果表明，该方法取得了与现有最优方法相媲美的性能。

Sep, 2021

增强即时可辨性的时间动作定位

基于 TriDet 模型的时间动作检测（TAD）在多个 TAD 数据集上表现出鲁棒性和最先进的性能，包括分层（多标签）TAD 数据集。

Sep, 2023

一种高效的时空金字塔变换器用于动作检测

本研究提出一种名为 STPT 的层次化时空金字塔 Transformer 模型，通过采用局部窗口注意力和全局注意力模块，实现了对长视频片段中动作的高效检测和定位，与目前流行的基于 Transformer 的模型相比，提高了精度并减少了冗余计算。

Jul, 2022

ViViT 训练优化：行动识别的时间和内存减少

本文提出了一种训练策略，可以降低视频 transformers 的训练时间和内存消耗，通过对 ViViT 的编码器变体进行修正实现冻结空间 transformer 的效果并提高准确率，最终在 6 个基准测试中减少了 50％的训练成本和内存消耗，同时保持或略微改善模型性能。

Jun, 2023

后处理时间性行为检测

本研究旨在解决现有时间序列动作检测算法常常在预处理阶段对视频进行下采样和采样恢复所带来的时间量化误差问题，并介绍了一种新的基于高斯分布的模型无关的后处理方法，称为 Gaussian Approximated Post-processing (GAP)，通过此方法可以在子片段级别上实现时间边界推断，在多项挑战性基准测试中，GAP 已经被证明可以显著提高各种预训练 TAD 模型的性能，并且可以与模型训练集成以进一步提高性能。

Nov, 2022