动作识别的智能帧选择

AAAIDec, 2020

SMART Frame Selection for Action Recognition

Shreyank N Gowda, Marcus Rohrbach, Laura Sevilla-Lara

TL;DR本文通过提出一种称为 SMART 的方法，既能减少动作识别的计算成本，又能提高识别精度。该方法通过联合考虑帧的选择，而不是逐一考虑，使得好的帧更有效地分布在视频中，并成功地应用于多个基准测试中。

Abstract

action recognition is computationally expensive. In this paper, we address the problem of frame selection to improve the accuracy of

action recognition frame selection computational cost accuracy smart

发现论文，激发创造

无遗漏：全视频动作识别

通过对视频帧进行时间聚类，提出了一种全视频行为识别方法，相较于现有的基于帧采样的方法效果更好，同时由于采用了时空局部聚类和快速的哈明距离计算方法使其训练高效。

Mar, 2021

Search-Map-Search: 动作识别的框架选择范式

通过深度学习算法和启发式搜索方法相结合，优化视频帧的选取，提高动作识别模型的准确性。

Apr, 2023

使用弱监督为未修剪视频中的行动识别学习可转移的自我关注表示

提出一种新的基于弱监督框架，通过利用注意力机制定位动作帧同时识别未修剪视频中的动作，利用修剪视频中的信息传递知识来提高分类性能。在 THUMOS14 和 ActivityNet1.3 上经过广泛的实验，实验证明了该方法的有效性。

Feb, 2019

样本减少，学习更多：通过帧特征修复实现高效动作识别

通过恢复两个稀疏采样和相邻视频帧的中间特征，本研究提出了一种新方法，以解决过采样帧引起的性能下降问题，并且在几个常用基线方法上提高了 50% 以上的效率，仅导致 0.5% 的识别准确率降低，同时在零 - shot 设置下也意外地改善了模型的概括能力。

Jul, 2023

AdaFrame：快速视频识别的自适应帧选择

AdaFrame 是一种通过 LSTM 网络和全局内存来为视频识别自适应选择相关帧的框架，通过策略梯度等方法来训练，用于生成预测和确定下一个帧，并计算查看更多帧的效益，并利用预测结果来实现自适应前瞻推断，从而减少计算成本并保持精度，通过大规模视频测试达到依然可以获得良好的识别效果。

Nov, 2018

基于多智能体强化学习的帧采样技术在未剪辑视频识别中的应用

该研究旨在通过开发基于学习的帧采样策略，改进未修剪视频分类，并借鉴多智能体强化学习框架解决多种手工制作策略带来的性能损耗问题。实验结果显示，该方法在各种 2D 和 3D 基线方法上取得的成果优于手工制作策略，并实现了新的 YouTube Birds 和 YouTube Cars 领域的最佳表现。

Jul, 2019

SCSampler：用于高效行为识别的视频显著片段采样

本文介绍了一种轻量级的 “剪辑采样” 模型，可在长视频中高效识别最显著的时间片段，将行动识别的计算成本显著降低，同时提高识别准确性。

Apr, 2019

移动视频动作识别

本文研究了在移动设备上的视频动作识别任务，提出了一个基于 MobileNetV2 和 Temporal Trilinear Pooling (TTP) 模块的方法，使用多种模态处理压缩视频，并进行了效率测试，结果表明我们的模型在移动设备上可以实现 40FPS 的识别速度，且在模型大小和时间消耗方面表现优异。

Aug, 2019

SMART：骨骼运动动作识别攻击

提出了一种名为 SMART 的方法，通过创新的感知损失攻击依赖于 3D 骨架运动的动作识别器，该方法在白盒和黑盒场景中都很有效，且具有广泛的推广性和多样性，并且证明 3D 骨架运动的对抗攻击与传统的对抗攻击问题存在明显的差异。

Nov, 2019

从未修剪的视频中单时间戳监督的动作识别

使用单个时间戳代替昂贵的包含行动界限的监督信息，通过不断更新采样分布，进而使其收敛至判别性行动段的位置和范围，从而取得良好的视觉识别效果。

Apr, 2019