动作识别的智能帧选择
提出一种新的基于弱监督框架,通过利用注意力机制定位动作帧同时识别未修剪视频中的动作,利用修剪视频中的信息传递知识来提高分类性能。在 THUMOS14 和 ActivityNet1.3 上经过广泛的实验,实验证明了该方法的有效性。
Feb, 2019
通过恢复两个稀疏采样和相邻视频帧的中间特征,本研究提出了一种新方法,以解决过采样帧引起的性能下降问题,并且在几个常用基线方法上提高了 50% 以上的效率,仅导致 0.5% 的识别准确率降低,同时在零 - shot 设置下也意外地改善了模型的概括能力。
Jul, 2023
AdaFrame 是一种通过 LSTM 网络和全局内存来为视频识别自适应选择相关帧的框架,通过策略梯度等方法来训练,用于生成预测和确定下一个帧,并计算查看更多帧的效益,并利用预测结果来实现自适应前瞻推断,从而减少计算成本并保持精度,通过大规模视频测试达到依然可以获得良好的识别效果。
Nov, 2018
该研究旨在通过开发基于学习的帧采样策略,改进未修剪视频分类,并借鉴多智能体强化学习框架解决多种手工制作策略带来的性能损耗问题。实验结果显示,该方法在各种 2D 和 3D 基线方法上取得的成果优于手工制作策略,并实现了新的 YouTube Birds 和 YouTube Cars 领域的最佳表现。
Jul, 2019
本文介绍了一种轻量级的 “剪辑采样” 模型,可在长视频中高效识别最显著的时间片段,将行动识别的计算成本显著降低,同时提高识别准确性。
Apr, 2019
本文研究了在移动设备上的视频动作识别任务,提出了一个基于 MobileNetV2 和 Temporal Trilinear Pooling (TTP) 模块的方法,使用多种模态处理压缩视频,并进行了效率测试,结果表明我们的模型在移动设备上可以实现 40FPS 的识别速度,且在模型大小和时间消耗方面表现优异。
Aug, 2019
提出了一种名为 SMART 的方法,通过创新的感知损失攻击依赖于 3D 骨架运动的动作识别器,该方法在白盒和黑盒场景中都很有效,且具有广泛的推广性和多样性,并且证明 3D 骨架运动的对抗攻击与传统的对抗攻击问题存在明显的差异。
Nov, 2019