高效视频识别的分辨率思考

NIPSSep, 2022

Rethinking Resolution in the Context of Efficient Video Recognition

Chuofan Ma, Qiushan Guo, Yi Jiang, Zehuan Yuan, Ping Luo...

TL;DR本研究通过跨分辨率知识蒸馏方法（ResKD）来解决在低分辨率视频帧上识别准确度低的问题，该方法证明了在提高效率和精度方面的有效性，并可扩展到极低分辨率帧。

Abstract

In this paper, we empirically study how to make the most of low-resolution frames for efficient video recognition. Existing methods mainly focus on developing compact networks or alleviating temporal redundancy of video inputs to increase efficiency, whereas compressing frame resolutio

low-resolution frames video recognition knowledge distillation cross-resolution kd efficiency and accuracy

发现论文，激发创造

ResQ: 视频感知的剩余量化

通过低位量化的新视角以及引入时间依赖性，本文提出了一种视频网络的新的量化方案 Residual Quantization（ResQ），以降低冗余计算并提高准确性和比特位宽。此外，还通过动态调整比特位宽来适应视频中的变化，通过在语义分割和人体姿势估计基准上的实验证明该方法优于标准量化和现有高效视频感知模型。

Aug, 2023

一种增强的交通环境低分辨率图像识别方法

低分辨率图像识别中的关键在于特征提取，本文探讨了残差模块的基本维度及其对特征提取和计算效率的影响，并基于实验引入了一种双分支残差网络结构，结合常见特征子空间算法和中间层特征的利用，以提高低分辨率图像在交通环境中的识别精度，并通过知识蒸馏来减少网络参数和计算开销，实验证明该算法在低分辨率交通图像识别中的有效性。

Sep, 2023

样本减少，学习更多：通过帧特征修复实现高效动作识别

通过恢复两个稀疏采样和相邻视频帧的中间特征，本研究提出了一种新方法，以解决过采样帧引起的性能下降问题，并且在几个常用基线方法上提高了 50% 以上的效率，仅导致 0.5% 的识别准确率降低，同时在零 - shot 设置下也意外地改善了模型的概括能力。

Jul, 2023

基于残差帧的稀疏重构技术实现的可扩展视频超分辨率框架

文章提出了一个基于稀疏表示和压缩感知的超分辨率框架，用于在侦察和监视应用中对可扩展视频进行处理，实验结果表明，该框架具有更高的压缩率和更高的视频质量，是一种有效的压缩率更高、图像质量更优的视频处理算法。

Jul, 2017

重访 3D ResNets 用于视频识别

通过 3D ResNets 的简单缩放策略和优化的训练策略，以及轻微的架构改变，提高了视觉识别模型的性能，得到了 81.0 和 83.8 的竞争性表现，无需预训练，并通过自监督学习进一步改进表现。

Sep, 2021

可微分的分辨率压缩与对齐，用于高效视频分类和检索

通过 Differentiable Resolution Compression and Alignment 机制，我们提出了一种高效的视频表示网络，以减小计算成本，同时保持一致的时间相关性，从而在近似重复视频检索和动态视频分类方面取得了最佳的效率与性能的权衡。

Sep, 2023

AR-Net：用于有效动作识别的自适应帧分辨率

本文提出了一种名为 AR-Net 的新方法，该方法使用策略网络来选择用于处理的输入分辨率，以在长且未修剪的视频中实现高效的动作识别。与现有技术相比，此方法可大大提高识别的准确性和效率。

Jul, 2020

深度多帧人脸超分辨率

我们提出了一种面向多帧人脸识别、对齐和超分辨率的综合系统，使用神经网络架构，同时考虑多个相邻帧，并利用子像素运动，从而显著提高了识别得分。

Sep, 2017

一阶段低分辨率文本识别及高分辨率知识迁移

通过使用新颖的知识蒸馏框架，从高分辨率图像中将知识传递到低分辨率输入，实现了低分辨率文本识别的有效性和效率的显著提升。

Aug, 2023

改变压缩视频分辨率以高效进行语义分割

本文提出了一种称为 AR-Seg 的改变分辨率框架，旨在通过使用低分辨率来减少非关键帧的计算成本，同时避免降采样引起的性能下降，CReFF 模块能够更好地进行空间对齐和聚合，FST 策略能够通过显式相似性损失和隐式约束提高分割准确性，CamVid 和 Cityscapes 等多个数据集上，AR-Seg 在不同分割骨干网的情况下实现了最先进的性能。

Mar, 2023