SmallBigNet: 为视频分类集成核心和上下文视角

CVPRJun, 2020

SmallBigNet: 为视频分类集成核心和上下文视角

SmallBigNet: Integrating Core and Contextual Views for Video Classification

Xianhang Li, Yali Wang, Zhipeng Zhou, Yu Qiao

TL;DR提出了一个称为 SmallBig network 的新颖卷积神经网络，它利用小视图和大视图的协作来学习视频表示。相对于传统的时间卷积，大视图可以从更广阔的三维感受野中提供最活跃的视频特征，从而为视频分类学习更加强大和有区别性的时空表示。同时，共享卷积核进一步提高了模型紧凑性并缓解了过拟合。在 Kinetics400、Something-Something V1 和 V2 等大规模视频基准测试中，SmallBig 网络在准确性和效率方面均优于许多最新的先进方法。

Abstract

temporal convolution has been widely used for video classification. However, it is performed on spatio-temporal contexts in a limited view, which often weakens its capacity of learning video representation. To al

temporal convolution smallbig network spatio-temporal representations video classification 3d cnns

发现论文，激发创造

Big-Little Net：一种高效的多尺度特征表示方法，用于视觉和语音识别

该论文提出了一种新的卷积神经网络 (CNN) 架构，通过使用具有不同计算复杂度的多分支网络，在不同的尺度上频繁合并特征，以使用更少的计算实现多尺度特征，并在目标识别和语音识别任务上显著提高了模型效率和性能。

Jul, 2018

大小网络与深度时间聚合学习高效视频表示

本文介绍了一种基于低分辨率帧和高分辨率帧的轻量级、节省内存的行动识别架构，通过 FLOPs 降低 3~4 倍，内存使用降低 2 倍，利用提出的时间聚合模块来模拟视频中的时间依赖性。该模型在多项行动识别基准测试中表现良好。

Dec, 2019

视频分类的混合深度学习框架中建模时空线索

本文提出了一种混合式深度学习框架，旨在对视频的静态空间信息、短期运动以及长期时间线索进行建模，并且在 UCF-101 人体动作和 Columbia 消费者视频两个标注数据集上实验，结果表明该框架相对于传统策略具有更高的性能.

Apr, 2015

超越短片段：用于视频分类的深度网络

本论文提出和评估了几个深度神经网络架构，用于对比以往更长时间段内视频图像信息的组合。通过一些新的方法，包括卷积时间特征池化和循环神经网络结构，该论文指出最佳神经网络在 Sports 1 million 数据集（73.1％对 60.9％）和 UCF-101 数据集中（88.6％对 88.0％）及无附加光流信息（82.6％对 72.8％）上明显性能提高。

Mar, 2015

重新思考时空特征学习：视频分类的速度和准确性权衡

本研究通过优化设计网络结构，系统地探讨了关键网络设计选择，包括将大量 3D 卷积替换为低成本的 2D 卷积、可分离的空间 / 时间卷积和特征门控等，进而建立了一个有效而高效的视频分类系统。实验表明本文方法不仅速度更快，而且在行动分类基准测试（Kinetics、Something-something、UCF101 和 HMDB）以及两个行动检测（本地化）基准测试（JHMDB 和 UCF101-24）中的分类效果也比其他方法更有竞争力。

Dec, 2017

利用深度神经网络进行大规模 YouTube-8M 视频理解

本文基于 YouTube-8M 大规模数据集，提出了三种视频分类模型，分别基于帧池化和 LSTM 网络，第三个模型使用 Experts 混合中间层以增加模型容量，并进行了一系列处理不平衡训练数据的实验。

Jun, 2017

使用上下文门控的可学习池化方法进行视频分类

通过聚类聚合和可学习的非线性单元 Context Gating 模型改进了现有视频表达方式，提高了视频分类准确率。

Jun, 2017

使用三维卷积神经网络学习时空特征

通过在大规模监督视频数据集上使用训练的深度三维卷积神经网络（3D ConvNets）提出了一种简单而有效的时空特征学习方法。我们的成果有三个：1）相对于 2D ConvNets，3D ConvNets 更适用于时空特征学习；2）所有层中具有小的 3x3x3 卷积核的同构体系结构是 3D ConvNets 中表现最佳的体系结构之一；3）我们学到的特征 —— 即 C3D（卷积 3D）—— 连同一个简单的线性分类器，在 4 个不同的基准测试中优于最先进的方法，并与其他 2 个基准测试中的最佳方法相当。此外，这些特征紧凑：只需 10 维便能在 UCF101 数据集上达到 52.8％的准确率，由于 ConvNets 的快速推理，计算效率也非常高。最后，它们在概念上非常简单易用且易于训练和使用。

Dec, 2014

融合深度卷积网络进行大规模视觉概念分类

本研究从大数据方面对卷积神经网络进行了分析，并在单个和多个网络模型上提出了有效的融合机制，为大数据从业人员提供了最佳实践，从而在保持计算成本较低的情况下，在基准数据集上取得了最先进的结果。

Aug, 2016

ContextNet：探索上下文及细节用于实时语义分割

ContextNet 提出了一种新的深度神经网络架构，利用分解卷积、网络压缩和金字塔表示等技术，实现了高效的全局上下文信息提取和高分辨率分割细节捕捉，从而在保持精度的前提下，降低了内存需求，实现了具备实时性和低存储成本的语义分割。

May, 2018