时空关注的两流协同学习用于视频分类

Nov, 2017

时空关注的两流协同学习用于视频分类

Two-stream Collaborative Learning with Spatial-Temporal Attention for Video Classification

Yuxin Peng, Yunzhen Zhao, Junchao Zhang

TL;DR本论文提出了一种适用于视频分类的两流协作学习方法，采用空间 - 时间注意力模型实现了针对视频中静态和动态信息的协同学习，以提取出区分度更强的特征向量，实验结果表明，该方法在各项性能指标上均优于其他 10 多种最先进的方法。

Abstract

video classification is highly important with wide applications, such as video search and intelligent surveillance. Video naturally consists of static and motion information, which can be represented by frame and optical flow. Recently, researchers generally adopt the →

video classification deep networks spatial-temporal attention static-motion collaborative learning discriminative features

发现论文，激发创造

视频分类的混合深度学习框架中建模时空线索

本文提出了一种混合式深度学习框架，旨在对视频的静态空间信息、短期运动以及长期时间线索进行建模，并且在 UCF-101 人体动作和 Columbia 消费者视频两个标注数据集上实验，结果表明该框架相对于传统策略具有更高的性能.

Apr, 2015

CSTA：基于卷积神经网络的时空注意力视频摘要

提出了一种基于 CNN 的时空注意力（CSTA）方法，将视频的每个帧的特征堆叠起来形成类似图像的帧表示，并应用 2D CNN 对这些帧特征进行处理，实现对关键属性的学习和视觉重要性的捕捉，在 SumMe 和 TVSum 等数据集上实验证明了该方法在减少计算量的同时取得了最先进的性能。

May, 2024

AttentionNAS: 基于时空注意力单元搜索的视频分类

提出一种新的用于搜索空间时间关注单元的方法，可以用于改善现有的骨干网络（如 I3D 或 S3D）中的视频分类精度，并在 Kinetics-600 和 MiT 数据集上超过 2％。

Jul, 2020

视频动作识别的协作时空特征学习

本文提出了一种新颖的神经操作，通过在三个正交视图上进行 2D 卷积，协同编码了时空特征，并通过权值共享来促进空间和时间特征的学习，此方法在大规模基准测试中取得了最优性能，并通过对不同视图学习的系数进行量化，探讨了空间和时间特征的贡献，以提高模型的解释性并指导视频识别算法的设计。

Mar, 2019

可解释的时空注意力视频动作识别

通过引入可解释的时空注意力机制来提高视频动作识别的准确性和模型解释性，并使用一组正则化器对其进行约束。利用弱监督的方式仅使用分类标签，模型不仅提高了准确性，还能时空自动定位区分性区域。

Oct, 2018

评估两流 CNN 用于视频分类

该论文以深度学习为基础，通过研究网络架构、模型融合、学习参数和最终预测方法等等选项对视频分类进行了深入研究，并在两个流行的视频分类基准测试中获得了竞争力极强的结果。

Apr, 2015

基于双流流程引导的卷积注意力网络用于动作识别

本文提出了一种用于视频动作识别的两流光流引导卷积注意网络模型，通过正确补偿相机运动，可以用光流来引导关注人类前景，从而防止背景干扰，得到了良好的性能表现。

Aug, 2017

动态显著性预测的时空显著性网络

本研究提出了基于深度学习的时空注意力预测模型，其中采用两条流网络架构，探究了不同的信息融合机制。实验结果表明，采用运动信息可以有助于静态注意力估计，并取得了与最先进模型相竞争的结果。

Jul, 2016

注意力聚类：基于纯注意力的局部特征融合用于视频分类

通过研究视频分类的常见数据集，本文提出了一种注意力集群的本地特征融合框架，并引入一种转移操作来捕获更多样化的信号，证明了这种基于注意力的本地特征融合的有效性，该算法在三个真实世界的视频分类数据集上都取得了竞争性的结果，并在 ActivityNet Kinetics Challenge 2017 中荣获胜利。

Nov, 2017

视频级标签时间定位的多注意力网络

本文提出一种多注意力机制的模型来解决视频理解中的时间定位问题，模型结合了多个注意力网络、深度帧模型、循环神经网络和卷积神经网络，并基于多实例多标签学习和 attention 权重来加强对视频中重要帧的关注，从而在 YouTube-8M Video Understanding Challenge 中取得了较好的成绩。

Nov, 2019