本文提出了一种针对 Few-Shot 行为识别的视频帧采样器,采用了时间选择器和空间放大器来实现任务特定的时空帧采样,并采用任务自适应学习来动态调整采样策略。实验结果表明,该采样器在各个基准测试上都具有显著的性能提升。
Jul, 2022
该研究旨在通过开发基于学习的帧采样策略,改进未修剪视频分类,并借鉴多智能体强化学习框架解决多种手工制作策略带来的性能损耗问题。实验结果显示,该方法在各种 2D 和 3D 基线方法上取得的成果优于手工制作策略,并实现了新的 YouTube Birds 和 YouTube Cars 领域的最佳表现。
Jul, 2019
本文介绍了一种轻量级的 “剪辑采样” 模型,可在长视频中高效识别最显著的时间片段,将行动识别的计算成本显著降低,同时提高识别准确性。
Apr, 2019
本文通过提出 OCSampler 框架,利用一小段短视频的紧凑且有效的表示来实现视频识别的高效率。利用实例特定的视频压缩策略和轻量的 skim 网络和简单且有效的策略网络,我们扩展了所提出的方法,具有帧数预算,可以在高置信度下用尽可能少的帧产生正确的预测。实验表明,该框架在准确性,理论计算开销和实际推理速度等方面优于以前的方法。
Jan, 2022
提出了两种帧采样策略,即最主导帧(MDF)和最隐含帧(MIF),用于最大限度地保留对给定问题最重要的帧,验证实验结果表明这些策略能够提高图像 - 文本预训练模型的性能。
Jul, 2023
本文提出了一种用于视频动作识别的新算法,旨在从航拍视频中选择包含人在内的高运动唯象帧,该算法通过利用航拍视频中的运动偏差,利用了一些简单的重叠分析来识别视频中仅仅包含对应行为的帧。
Apr, 2023
本文提出了一种用于时序句子定位的新型 Siamese 取样与推理网络(SSRN),该网络使用 Siamese 取样机制在已有取样的基础上生成额外的情境帧,以更精细地理解活动,解决了已有方法中忽略的时序数据偏差和推理偏差问题,并能够在保证模型泛华能力的同时,对三个具有挑战性的数据集进行有效的定位。
Jan, 2023
通过对视频帧进行时间聚类,提出了一种全视频行为识别方法,相较于现有的基于帧采样的方法效果更好,同时由于采用了时空局部聚类和快速的哈明距离计算方法使其训练高效。
Mar, 2021
通过深度学习算法和启发式搜索方法相结合,优化视频帧的选取,提高动作识别模型的准确性。
该论文提出了一种多粒度生成器(MGG),从不同的粒度角度利用视频视觉特征执行时间动作提议,将段提议生成器(SPP)和帧活性生产者(FAP)组合起来执行两个不同粒度的时间动作提议任务,可与现有的动作分类器一起用于视频检测任务,具有优于现有方法的性能表现。
Nov, 2018