视频识别中的关注更多、关爱更少

Nov, 2022

视频识别中的关注更多、关爱更少

Look More but Care Less in Video Recognition

Yitian Zhang, Yue Bai, Huan Wang, Yi Xu, Yun Fu

TL;DR本研究提出了 Ample and Focal Network (AFNet)，通过使用两个分支结构来利用更多的帧数，以实现更准确的动作识别，同时确保计算效率。与现有方法相比，EFNet 在使用更多帧数的同时，计算成本更低。在大量的实验中，本研究表明了 AFNet 的有效性和高效性。

Abstract

Existing action recognition methods typically sample a few frames to represent each video to avoid the enormous computation, which often limits the recognition performance. To tackle this problem, we propose Ample and Focal Network (AFNet), which is composed of two branches to utilize

action recognition deep learning convolutional neural networks video analysis temporal modeling

发现论文，激发创造

AdaFocus V2：面向视频识别的空间动态网络的端到端训练

介绍了一种基于差值插值的补丁选择算法，简化了 AdaFocus 的训练过程并提高了效率，并提出了一种改进的训练方案和条件退出技术，该模型在六个基准数据集上表现出更好的性能。

Dec, 2021

视频面部表情识别的框架注意力网络

本文提出了 Frame Attention Networks（FAN）来自动突出视频中具有区分度的帧，进行面部特征的集成，并在 CK + 和 AFEW8.0 数据集上展开了广泛的实验，其效果表现出优越的性能，超过了基于 CNN 的其他方法并在 CK + 上取得了最优秀的性能。

Jun, 2019

无遗漏：全视频动作识别

通过对视频帧进行时间聚类，提出了一种全视频行为识别方法，相较于现有的基于帧采样的方法效果更好，同时由于采用了时空局部聚类和快速的哈明距离计算方法使其训练高效。

Mar, 2021

可塑性框架网络

提出了一种名为 Frame Flexible Network（FFN）的通用框架，旨在解决现有视频识别算法只针对不同帧数的输入进行不同训练流程的问题以及通过 Multi-Frequency Alignment（MFAL）和 Multi-Frequency Adaptation（MFAD）技术学习时间频率不变表示来加强其表示能力，从而实现模型在不同帧上进行评估和减少存储多个模型的内存成本。在各种体系结构和流行基准上进行的全面实证验证充分证明了 FFN 的有效性和通用性。

Mar, 2023

AdaFocusV3: 统一的时空动态视频识别

本文探索在改进的 AdaFocusV3 框架上，统一时空动态计算的形式，通过在一些信息丰富的三维视频块上激活高性能网络以降低计算成本，并通过自适应轻量的策略网络在每个样本上根据测试时间的需求动态配置视频块数量，模型经过在 ActivityNet，FCVID，Mini-Kinetics，Something-Something V1&V2 和 Diving48 六个基准数据集上的广泛实验结果证明其显著比竞争算法更有效率。

Sep, 2022

AR-Net：用于有效动作识别的自适应帧分辨率

本文提出了一种名为 AR-Net 的新方法，该方法使用策略网络来选择用于处理的输入分辨率，以在长且未修剪的视频中实现高效的动作识别。与现有技术相比，此方法可大大提高识别的准确性和效率。

Jul, 2020

大小网络与深度时间聚合学习高效视频表示

本文介绍了一种基于低分辨率帧和高分辨率帧的轻量级、节省内存的行动识别架构，通过 FLOPs 降低 3~4 倍，内存使用降低 2 倍，利用提出的时间聚合模块来模拟视频中的时间依赖性。该模型在多项行动识别基准测试中表现良好。

Dec, 2019

视频 FocalNets：时空 Focal 调制用于视频动作识别

本文提出了基于方向聚焦的架构 Video-FocalNet，它是一种有效且高效的视频识别体系结构，用于同时对本地和全局上下文进行建模，相较于现今热门的视频识别模型，该识别模型在三大数据集上表现优异，具有更低的计算成本。

Jul, 2023

高效视频识别的自适应对焦

本文探讨了视频识别中的空间冗余问题，提出了一种基于强化学习的自适应空间视频识别方法（AdaFocus），通过在一个小图像块的空间序列上采用高效的卷积神经网络和循环决策网络来定位和选择最相关的区域，以提高计算效率和精度。

May, 2021

AdaFrame：快速视频识别的自适应帧选择

AdaFrame 是一种通过 LSTM 网络和全局内存来为视频识别自适应选择相关帧的框架，通过策略梯度等方法来训练，用于生成预测和确定下一个帧，并计算查看更多帧的效益，并利用预测结果来实现自适应前瞻推断，从而减少计算成本并保持精度，通过大规模视频测试达到依然可以获得良好的识别效果。

Nov, 2018