AdaFocusV3: 统一的时空动态视频识别

ECCVSep, 2022

AdaFocusV3: 统一的时空动态视频识别

AdaFocusV3: On Unified Spatial-temporal Dynamic Video Recognition

Yulin Wang, Yang Yue, Xinhong Xu, Ali Hassani, Victor Kulikov...

TL;DR本文探索在改进的 AdaFocusV3 框架上，统一时空动态计算的形式，通过在一些信息丰富的三维视频块上激活高性能网络以降低计算成本，并通过自适应轻量的策略网络在每个样本上根据测试时间的需求动态配置视频块数量，模型经过在 ActivityNet，FCVID，Mini-Kinetics，Something-Something V1&V2 和 Diving48 六个基准数据集上的广泛实验结果证明其显著比竞争算法更有效率。

Abstract

Recent research has revealed that reducing the temporal and spatial redundancy are both effective approaches towards efficient video recognition, e.g., allocating the majority of computation to a task-relevant su

video recognition temporal redundancy spatial redundancy computation adafocusv3

发现论文，激发创造

AdaFocus V2：面向视频识别的空间动态网络的端到端训练

介绍了一种基于差值插值的补丁选择算法，简化了 AdaFocus 的训练过程并提高了效率，并提出了一种改进的训练方案和条件退出技术，该模型在六个基准数据集上表现出更好的性能。

Dec, 2021

高效视频识别的自适应对焦

本文探讨了视频识别中的空间冗余问题，提出了一种基于强化学习的自适应空间视频识别方法（AdaFocus），通过在一个小图像块的空间序列上采用高效的卷积神经网络和循环决策网络来定位和选择最相关的区域，以提高计算效率和精度。

May, 2021

Ada3D：自适应推断利用空间冗余以实现高效的三维物体检测

Ada3D 是一种自适应的推断框架，利用轻量级的重要性预测器和点云的独特特性去除冗余输入，减少计算和记忆成本，并通过引入 Sparsity Preserving Batch Normalization 进一步降低了密集特征映射的密度。

Jul, 2023

2D 还是 3D? 自适应 3D 卷积选择用于高效视频识别

通过 Ada3D 条件计算框架，使用策略梯度方法和轻量级选择网络，实现对不同视频的实例特定 3D 使用策略的学习，以决定使用哪些帧和卷积层，从而实现对 3D 模型进行预测，即使在不同数据集上，也能够实现类似于现有 3D 模型的准确度，且需要的计算量减少了 20％-50％。

Dec, 2020

通过针对视频的敌对时空聚焦实现有效的健壮性评估

我们提出了一种基于 AstFocus 攻击的多智能体强化学习框架，该框架同时在视频的关键帧和关键区域上进行攻击，并且通过减小搜索空间来降低查询数，使得在四种主流的视频识别模型和三个广泛使用的动作识别数据集上的结果均优于现有的最佳方法。

Jan, 2023

A3D：自适应 3D 网络用于视频动作识别

本文提出了 A3D, 一种自适应 3D 网络，可以在一次训练后适应各种计算约束。通过权衡网络宽度和时空分辨率，生成良好的配置，而无需像网格搜索一样训练多个模型并且计算成本可以在部署后适应变量约束，例如在边缘设备中。在三个维度上相互训练可以显著提高自适应网络的性能。当采用多路径框架（例如 SlowFast）时，我们的自适应方法可以促进更好的路径折衷，并且在 Kinetics 数据集上的广泛实验证实了该方法的有效性，也验证了性能增益在数据集和任务之间的迁移能力。

Nov, 2020

AdaFuse: 自适应时间融合网络用于高效运动识别

本文介绍了一种自适应的时间融合网络，称为 AdaFuse，用于视频动作识别的临时建模，其对历史卷积特征图的必要信息与当前修剪特征图进行融合，以提高识别准确性和效率。

Feb, 2021

一种减少图像分类中空间冗余的动态方法：凝视和聚焦

为了提高卷积神经网络（CNNs）的分类准确率，但不增加计算与存储成本，我们提出了一种采用强化学习所选择的原始图像中的一系列相对较小的输入进行处理的框架，从而实现了高效的图像分类。实验表明，采用我们提出的方法可以在不牺牲准确性的前提下显著提高多种深度模型的计算效率。

Oct, 2020

Ada-VE: 自适应运动先验的无需训练的一致性视频编辑

通过引入自适应的运动引导的跨帧注意机制，本文提出了一种显著降低计算复杂性的方法，同时保留语义细节和时间一致性，并通过 KV 缓存共享提高了中间帧质量和时间一致性，大大增加了联合编辑的关键帧数量，不受视觉质量和时间一致性的影响。

Jun, 2024

基于多样性正则化的时空关注力视频人物再识别

提出了一种新的时空注意力模型，可以自动发现多样化的特征，并使用空间和时间的注意力组合提取有用的信息，从整个视频序列中学习潜在的面部、躯干和其他身体部位的隐藏表示，通过三个数据集的评估发现算法优于现有方法。

Mar, 2018