- CVPR重新思考零样本视频分类:适用实际应用的端到端训练
提出一种基于可训练 3D 卷积神经网络的 zero-shot learning 方法,用于视频分类,并对基准测试范式进行了扩展,以解决对训练任务不知道的测试任务进行测试的问题。实验结果表明,相较于现有技术,我们的方法显著优于其他方法。
- VideoSSL: 视频分类的半监督学习
本文提出了一种基于卷积神经网络(CNN)的半监督学习方法:VideoSSL,用于视频分类,可以在只使用少量标注样本以及利用无标注数据的两种信号指导下,在 UCF101、HMDB51 和 Kinetics 三个公开数据集上实现出色的性能。
- 针对视频识别网络的无线对抗闪烁攻击
本文介绍了一种可以进行视频分类器对抗攻击的方法,该方法利用了时间信息中的闪烁扰动,并展示了普适对抗扰动和实现对多目标模型的攻击转移能力。
- 广泛适用的视频攻击中添加对抗性帧
本研究提出了一种基于视频的攻击方法,将几个无用帧附加到视频剪辑中并仅对这些新帧添加对抗扰动,这种攻击可以成功地穿越不同的网络,并且对于大多数人来说是不易注意到异常的,从而有效地进行通用视频攻击。
- 基于度量的视频动作识别小样本学习
本研究介绍了针对少样本学习的视频动作识别任务,采用双流模型和三种常见的基于度量的算法,通过一组卷积和递归神经网络视频编码器进行训练和评估,证实了双流设置的重要性,并发现原型网络和池化长短期记忆网络嵌入为少样本方法和视频编码器提供了最佳性能。 - 对抗性视频蒸馏
本研究介绍了一种基于压缩为图像的视频表示方法(Adversarial Video Distillation),通过 3D 卷积编码器 - 解码器网络将输入视频编码为一张图像,并通过对输出图像的对抗性训练来生成语义逼真的图像,以实现基于图像分 - 通过时间对齐的少样本视频分类
本文提出了一种新的少样本学习框架 ——“Temporal Alignment Module (TAM)”,通过显式利用视频数据中的时序信息,计算查询视频与新类别代理之间的距离值以实现视频分类,并引入连续松弛以在端到端的学习中直接优化少样本学 - ECCV深度卷积图网络的分层视频帧序列表示
本文提出了一种基于深度卷积图神经网络的视频分类方法,利用视频的分层结构特性通过图网络对视频帧序列进行多级特征提取,获得反映事件语义的视频表示,其在 YouTube-8M 大规模视频理解数据集上的表现优于基于 RNN 的基准模型。
- IJCAI视频分类的光流特征幻象
本文提出了一种名为 MoNet 的运动幻觉网络,通过从外观特征想象光流特征,而无需依赖光流计算,大幅度提高了视频分类性能,同时能够帮助削减一半的计算和数据存储负担。
- ICCV资源高效的三维卷积神经网络
本文研究了如何将现有的资源有效的 2D 卷积神经网络转换为 3D 卷积神经网络,并测试了它们在不同复杂度水平下的性能和实时性能,结果表明这些模型可以应用于各种实际应用程序,提供了可观的准确性和内存使用。
- 基于通道分离卷积网络的视频分类
本研究旨在探讨 3D 群组卷积网络在视频分类网络中所能提供的计算效益,以及在设计中做出不同选择的影响。实验结果表明,分离通道交互和时空交互是提升网络准确性以及降低计算成本的好策略,3D 通道分离卷积还能够为网络提供一种正则化,我们提出的分离 - 使用 3D 卷积神经网络进行基于视频的外科技能评估
本研究使用深度学习方法,基于视频数据进行自动技能评估,结果表明使用 3D ConvNet 直接从数据中学习有意义的模式可以高效评估外科技术技能,使得人工特征工程不再是必须的。
- CVPR利用较少帧数进行高效视频分类
探索了一种使用高计算复杂度的 Teacher 来训练计算效率更高的 Student 进行视频分类的方法,并表明该方法可以显著减少 FLOPs 数量并降低推理时间。
- Saliency Tubes: 时空卷积的视觉解释
提出了一种名为 Saliency Tubes 的方法,用于改善 3D 卷积神经网络(CNNs)的解释性,旨在理解网络内部运作方式并分离视频中网络发现的最关键的时空区域。
- AAAI图像和视频分类的对抗性框架
本文提出一种使用边框添加对抗性干扰的图像覆盖方法, 能够成功攻击最先进的图像和视频分类方法,从而对神经网络的安全性提出挑战,并提供了源代码。
- CVPR用于视觉序列应用的深度递归神经网络框架
我们提出了一种可以有效地堆叠的新型循环神经网络框架,其中包含称为 Context Bridge Module (CBM) 的新型循环神经网络模块和 Overlap Coherence Training Scheme 的设计。通过在几个视觉顺 - ECCVNeXtVLAD:一种高效的神经网络,用于聚合基于帧的特征,实现大规模视频分类
介绍了一种快速高效的网络结构 NeXtVLAD,用于将帧级特征聚合成一个紧凑的特征向量以进行大规模视频分类,在第二个 Youtube-8M 视频理解挑战中,单个 NeXtVLAD 模型只使用少于 80M 的参数就实现了 0.87846 的 - ECCV细粒度视频分类与冗余减少注意力
本文提出了一种名为 Redundancy Reduction Attention(RRA)的新型网络结构,通过抑制多余的特征通道学习集中于多个判别模式,在多个视频分类数据集中取得了优秀的表现。
- ECCV使用循环矩阵训练紧凑型深度学习模型进行视频分类
本研究旨在减小大型权重矩阵所带来的训练和部署难度,提出一种基于 Deep Bag-of-Frames、NetVLAD 和 NetFisherVectors 等先进网络架构的紧凑视频分类模型,并在广泛使用的 YouTube-8M 视频分类数据 - ECCV视频分类的非本地化 NetVLAD 编码
本文介绍了我们在 Google AI 组织的第二届 YouTube-8M 视频理解挑战中的解决方案,该方案利用非本地操作实现了多个子模型的融合来有效地执行视频分类任务。