- RoVISQ:基于深度学习的视频压缩的敌对攻击降低视频服务质量
本篇论文首次对深度学习视频压缩和分类系统进行了敌对攻击研究。我们设计了名为 RoVISQ 的攻击框架,在增加网络带宽或降低用户视频质量两个方面实现攻击目标。RoVISQ 攻击对于对抗训练、视频降噪和 JPEG 压缩等多种防御具有鲁棒性,实验 - CVPR基于代表性片段知识传播的弱监督时态动作定位
该研究提出了一种代表性摘要和传播框架,通过在视频中挖掘代表性片段来传播信息以生成更好的伪标签,从而解决了分类和定位之间的差异问题,并在 THUMOS14 和 ActivityNet1.3 数据集上取得了比现有方法更好的性能。
- ICLRUniFormer:用于高效时空表示学习的统一 Transformer
本研究提出了一种新型的视频分类模型 ——UniFormer,它集成了 3D 卷积和自注意力机制的优点,通过浅层和深层分别学习本地和全局特征,从而在计算量和准确性之间取得了理想的平衡,经实验证明该模型的泛化和针对性能均优于其他方法。
- CVPRMViTv2: 改进的多尺度视觉 Transformer 用于分类和检测
本文探究了多尺度视觉变换器 (MViTv2) 作为统一的图像和视频分类以及物体检测的架构,提出了一种改进版本的架构,将分解相对位置嵌入和残差池连接融入 MViTv2,并应用在 ImageNet 分类、COCO 检测和 Kinetics 视频 - ECCV高效视觉 Transformer 的自适应标记采样
本文介绍了一种不需要参数调整的自适应 Token 采样器模块,该模块可以插入任何现有的视觉转换模型中,通过对重要的 Token 进行评分和自适应抽样,使得 Token 数量不再是固定的,而是根据每个输入图像的不同而变化,从而将视觉转换模型转 - 基于位移切块的时空表示学习变压器
本研究针对视频分类问题, 提出了一种基于 Transformer 与自注意力机制的空时表示学习方法,其中采用 shifted chunk Transformer 对视频帧间数据进行建模,通过局部到全局的多层次学习,构建了视频片段编码器,加强 - 当视频分类遇见增量类
本文提出了一种新框架来解决 Class-Incremental 视频分类(CIVC)任务,它可以不断更新新类别,同时保持旧视频的知识,并利用视频的一些特性来更好地减轻遗忘的挑战。 在 Something-Something V2 和 Kin - ICLRCT-Net: 基于通道张量化的视频分类网络
本研究提出 Channel Tensorization Network (CT-Net),通过将输入特征的通道维度视为 K 个子维度的乘积来分解卷积,从而轻量化计算量,有效增强不同通道的特征交互,并逐步扩大 3D receptive fie - IJCAI学习暗示性时间对齐用于小样本视频分类
本文提出了一种新的基于匹配的少样本学习策略,结合隐式时间对齐和上下文编码模块以及多任务损失,用于解决视频分类中在有限标注情况下空间 - 时间表征的学习问题,并在两个具有挑战性的基准测试中证明了其优越性。
- CVPR超越短视频片段:基于协作记忆的端到端视频级学习
通过采用协作存储机制,对视频的多个采样片段进行编码,实现对长期空间依赖关系的学习,以此提高视频分类的准确性和动作识别的性能,并在多个任务和数据集上超越了最先进的表现。
- ICCVViViT: 一种视频视觉 Transformer
本研究提出一种基于纯 Transformer 模型的视频分类方法,采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记,并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列,我们提出了一些高效的模型变体,可分 - ICML空时注意力是否足以理解视频?
该论文提出了一种基于自注意力机制的视频分类方法,名为 TimeSformer,适用于序列级别的视频帧,采用分离式自注意力机制,不仅训练速度比 3D 卷积神经网络更快,而且在多个动作识别数据集上实现了最佳效果,且支持处理长达一分钟的视频.
- 利用活动专属特征和活动相关性进行多标签活动识别
介绍一种多标签活动识别的方法,它可以为每个活动提取独立的特征描述符并学习活动之间的相关性,可使现有的视频分类网络结构更好地应用于多标签活动,经实验表现优于其他方法,并在 Charades 数据集中展示了活动特定的特征。
- ICCV时间建模的近似双线性模块
研究使用类似双线性模块(ABM)的方法进行时间建模,在分割相邻帧的可视重复部分的情况下减少帧分类的计算成本,从而实现在无动态参数情况下进行高效的视频分类。
- ECCVAttentionNAS: 基于时空注意力单元搜索的视频分类
提出一种新的用于搜索空间时间关注单元的方法,可以用于改善现有的骨干网络(如 I3D 或 S3D)中的视频分类精度,并在 Kinetics-600 和 MiT 数据集上超过 2%。
- ECCV从未剪辑的视频中识别不确定动作
本文提出了一种基于视频级别标签进行训练的视频动作识别模型,该模型利用大型图像数据集中训练的逐帧人物检测器,在多实例学习框架内实现。此外,我们使用新的概率多实例学习方法来估计每个预测的不确定性,并在 AVA 数据集上取得了第一个弱监督结果,在 - ECCVMotionSqueeze: 视频理解的神经动作特征学习
本文提出了一种名为 MotionSqueeze 的可训练神经网络模块,用于有效的运动特征提取,将外部和重量级计算的光流替换为内部和轻量级的学习运动特征方法,在四个标准基准测试中,该方法仅需很少的额外成本,即可获得明显的提高,超越了 Some - 基于视频检索和特征生成的通用 Few-Shot 视频分类
本研究提出通过使用 3D CNN 学习视频空时特征并在基类上 fine-tuning 分类器来解决 few-shot video classification 问题,其表现超过现有基准测试的先前方法 20 点以上,同时提出了利用标签检索和生 - CVPRSmallBigNet: 为视频分类集成核心和上下文视角
提出了一个称为 SmallBig network 的新颖卷积神经网络,它利用小视图和大视图的协作来学习视频表示。相对于传统的时间卷积,大视图可以从更广阔的三维感受野中提供最活跃的视频特征,从而为视频分类学习更加强大和有区别性的时空表示。同时 - TAEN:适用于少样本动作识别的时间感知嵌入网络
该论文提出了基于少量学习设计的 Temporal Aware Embedding Network (TAEN), 用于低样本动作识别,并在 Kinetics-400 和 ActivityNet 1.2 few-shot 数据集上得到了令人满