ImageNet Shuffle: 视频事件检测的重新组织预训练

Feb, 2016

ImageNet Shuffle: 视频事件检测的重新组织预训练

The ImageNet Shuffle: Reorganized Pre-training for Video Event Detection

Pascal Mettes, Dennis C. Koelma, Cees G. M. Snoek

TL;DR用深度卷积神经网络所学习的表达来实现视频事件检测，并探究如何利用完整的 ImageNet 层次结构进行深度网络的预训练，其中引入一种基于 ImageNet 全部 21,814 个类别和超过 14 百万图像的自下而上和自上而下的方法以解决过于特定类别和类别图像数量不足的问题，并通过对 TRECVID Multimedia Event Detection 2013 和 2015 数据集的实验验证，得到了超过标准预训练和融合其他模态的结果，取得了最先进的事件检测结果。

Abstract

This paper strives for video event detection using a representation learned from deep convolutional neural networks. Different from the leading approaches, who all learn from the 1,000 classes defined in the Imag

video event detection convolutional neural networks imagenet hierarchy multimedia event detection deep neural network

发现论文，激发创造

利用图像训练的 CNN 架构进行非约束视频分类

本文探索了使用卷积神经网络（CNN）进行视频事件检测的不同策略，包括空间和时间池化、特征归一化、CNN 层的选择以及分类器的选择。通过在这些维度上进行合理选择，我们的方法在 TRECVID MED'14 数据集上的性能可比先前使用的非 - CNN 模型具有显著提高，并且我们的融合方法可以进一步提高平均精度（mAP）并达到最新的分类性能水平。

Mar, 2015

用于事件检测的区分性 CNN 视频表示

本文讨论如何利用深度卷积神经网络和适当的编码方法来提高视频事件检测的性能，建议使用潜在概念描述符作为帧描述符，并实现新的最先进性能。

Nov, 2014

N-ImageNet：使用事件相机实现强健、细粒度目标识别

本研究介绍了 N-ImageNet 数据集，用于强健细粒度物体识别与事件摄像头。该数据集经过程序控制的硬件收集，具有大量的类别和样本，已被证实在事件物体识别的预训练中，有助于学习少量标注数据，同时还提出了 N-ImageNet 的几个变体以测试事件分类器在各种环境下的稳健性。本研究也提出了一种新的事件表示法，以缓解性能降级，并在环境条件不同的情况下比较事件物体识别算法之间的差异。因此，N-ImageNet 及其变体有望指导实际部署事件物体识别算法在现实世界中的使用。

Dec, 2021

通过超网络提高基于事件的视频重建的性能

本研究提出了一种基于动态神经网络架构的事件重建算法 HyperE2VID，使用超网络和动态卷积生成自适应滤波器，并结合上下文融合模块，以从事件体素网格和先前重建的强度图像中获得信息，采用课程式学习策略来训练网络，实验结果表明，HyperE2VID 具有更好的重建质量，参数更少，推理时间更短。

May, 2023

基于对象场景卷积神经网络的图像事件识别

本文提出一种基于深度神经网络的新型架构 OS-CNN，分解为物体和场景两个网络，分别从物体和场景的角度提取有用信息，设计了不同的网络架构，最终提出了一种 5 个流 CNN 的解决方案，在 ChaLearn Looking at People (LAP) challenge 2015 比赛中取得了 85.5% 的性能并排名第 1。

May, 2015

事件相机数据密集预训练

本文介绍了一种自监督学习框架，用于预训练针对密集预测任务的神经网络，该框架使用事件相机数据进行训练，并在转移学习方面展现出卓越性能。

Nov, 2023

利用视觉卷积神经网络和时间模型进行文化事件识别

本文提出了一种基于卷积神经网络的视觉特征和时间信息的分层分类器方案，并通过一个后期融合策略和时间修正步骤，得到了良好的文化事件分类结果，其中包括 2015 年 ChaLearn Challenge 的第二好表现。

Apr, 2015

超越短片段：用于视频分类的深度网络

本论文提出和评估了几个深度神经网络架构，用于对比以往更长时间段内视频图像信息的组合。通过一些新的方法，包括卷积时间特征池化和循环神经网络结构，该论文指出最佳神经网络在 Sports 1 million 数据集（73.1％对 60.9％）和 UCF-101 数据集中（88.6％对 88.0％）及无附加光流信息（82.6％对 72.8％）上明显性能提高。

Mar, 2015

深度卷积图网络的分层视频帧序列表示

本文提出了一种基于深度卷积图神经网络的视频分类方法，利用视频的分层结构特性通过图网络对视频帧序列进行多级特征提取，获得反映事件语义的视频表示，其在 YouTube-8M 大规模视频理解数据集上的表现优于基于 RNN 的基准模型。

Jun, 2019

ImageNet-21K 大规模预训练

本篇论文旨在通过专门的预处理阶段、利用 WordNet 层次结构和一种称为语义 softmax 的新型训练方案，从公开可用的 ImageNet-21K 数据集中有效地进行优质高效的预训练，并展示了不同模型在各种数据集和任务上获得的令人满意的结果。

Apr, 2021