VA-RED$^2$: 视频自适应冗余度减少

ICLRFeb, 2021

VA-RED$^2$: Video Adaptive Redundancy Reduction

Bowen Pan, Rameswar Panda, Camilo Fosco, Chung-Ching Lin, Alex Andonian...

TL;DR本文介绍了一种名为 VA-RED^2 的新型冗余特征减少框架，可用于深度学习模型的视频推断，通过输入依赖的策略来减少时间和通道维度的计算量，实现了 20％-40％的计算（FLOPs）减少而无需牺牲性能。

Abstract

Performing inference on deep learning models for videos remains a challenge due to the large amount of computational resources required to achieve robust recognition. An inherent property of real-world

deep learning videos redundancy reduction va-red^2 computation

发现论文，激发创造

细粒度视频分类与冗余减少注意力

本文提出了一种名为 Redundancy Reduction Attention（RRA）的新型网络结构，通过抑制多余的特征通道学习集中于多个判别模式，在多个视频分类数据集中取得了优秀的表现。

Oct, 2018

AdaFocusV3: 统一的时空动态视频识别

本文探索在改进的 AdaFocusV3 框架上，统一时空动态计算的形式，通过在一些信息丰富的三维视频块上激活高性能网络以降低计算成本，并通过自适应轻量的策略网络在每个样本上根据测试时间的需求动态配置视频块数量，模型经过在 ActivityNet，FCVID，Mini-Kinetics，Something-Something V1&V2 和 Diving48 六个基准数据集上的广泛实验结果证明其显著比竞争算法更有效率。

Sep, 2022

加速事件驱动特征检测与压缩用于监控视频系统

我们提出了一种新颖的系统，利用稀疏的解压表示来传达监控视频中的时间冗余。通过将帧视频转码为稀疏的、异步的强度样本，我们引入了内容适应、有损压缩和经典视觉算法的异步形式的机制。我们在 VIRAT 监控视频数据集上评估了我们的系统，并展示了相对于 OpenCV 的 FAST 特征检测速度提高了中位数 43.7%。我们运行与 OpenCV 相同的算法，但只处理接收到新异步事件的像素，而不是处理图像帧中的每个像素。我们的工作为即将到来的神经形态传感器铺平了道路，并且适用于未来的脉冲神经网络应用。

Dec, 2023

视频问答的冗余感知 Transformer

这篇论文介绍了当前 VideoQA 中存在的两种冗余问题，并提出了一种新的基于 Transformer 的体系结构来解决这些问题，通过模拟 VideoQA 的冗余特点，该模型在多个 VideoQA 基准上取得了最先进的结果。

Aug, 2023

ReDFeat: 多模态特征学习中的重耦合检测和描述

本文利用互相关联的检测和描述特点的相互加权策略进行多模态特征学习，提出了具有大触发范围的 Super Detector 和 learnable 非最大抑制层的 detector，并提出了可评估特征匹配和图像注册任务性能的基准系统，实验证明本文的方法可以显著提高匹配的准确性及训练的稳定性。

May, 2022

RaP：红 undancy-aware 视 deo-language 预 ning 练词为 Text- 视 deo 检索

通过测量视频补丁和文本单元的冗余度，我们提出了一种针对视觉和文本信息之间互模态冗余问题的视频语言预训练方法，并通过冗余感知对比学习获得了显著的结果提升。

Oct, 2022

数据增强的特征重新学习用于视频相关性预测

本研究提出了利用特征重学习和三元组排序损失优化视频内容表示的方法，同时提高数据增强策略在帧和视频层级上的应用。在 Hulu 基于内容的视频相关性预测 Challenge 2018 中，本方法表现优异，为内容相关性预测领域提供了创新的思路和技术。

Apr, 2020

高效视频识别的自适应对焦

本文探讨了视频识别中的空间冗余问题，提出了一种基于强化学习的自适应空间视频识别方法（AdaFocus），通过在一个小图像块的空间序列上采用高效的卷积神经网络和循环决策网络来定位和选择最相关的区域，以提高计算效率和精度。

May, 2021

RED-Net: 一种基于循环编码器 - 解码器网络的视频人脸对齐方法

本论文提出了一种基于循环编码器 - 解码器网络模型的实时视频人脸对齐方法，该方法预测由检测和回归损失正则化的 2D 人脸关键点热力图，同时在空间和时间维度上独特地利用循环学习。在空间上，我们通过输出响应图和输入之间的反馈环连接，使单个网络模型实现迭代粗略到精细的人脸对齐，而不是依赖于传统的级联模型集成。在时间上，我们首先将网络瓶颈中的特征解耦为时变因素和时不变因素，例如姿态和表情和身份信息。然后应用于解耦的时变特征上的时态循环学习。我们展示了这种特征解耦产生更好的泛化效果，在标准数据集上优于现有技术和本方法的几种变体的全面实验分析。

Jan, 2018

EDVR: 基于增强型可变形卷积网络的视频修复

视频修复项目，涉及超分辨率、去模糊等多个任务。本文提出了一种名为 EDVR 的基于增强可变形网络的视频修复框架，通过金字塔级别的可变形卷积对齐帧以及时间空间注意力融合模块对图像进行处理，取得了 NTIRE19 视觉修复挑战的所有四个任务的冠军，并在视频超分辨率和去模糊方面表现优异。

May, 2019