用于事件检测的区分性 CNN 视频表示
本文探索了使用卷积神经网络(CNN)进行视频事件检测的不同策略,包括空间和时间池化、特征归一化、CNN 层的选择以及分类器的选择。通过在这些维度上进行合理选择,我们的方法在 TRECVID MED'14 数据集上的性能可比先前使用的非 - CNN 模型具有显著提高,并且我们的融合方法可以进一步提高平均精度(mAP)并达到最新的分类性能水平。
Mar, 2015
本研究通过设计渐进式增强模块(PEM)和创建时间多样性损失(TD Loss)两种方法,以解决将 2D CNN 应用于视频分析中出现的重复和冗余信息利用问题,并在 Something-Something V1 和 V2 等基准时间推理数据集上取得 2.4%和 1.3%的性能改进,同时在大规模数据集 Kinetics 上也 witness 了超过基于 2D-CNN 的现有技术的性能提升。
Jul, 2020
该研究解决了视频中异常事件的联合检测和记述问题,通过整合通用 CNN 模型和环境相关的异常检测器,该方法可用于检测和记述异常事件,并在 Avenue 和 UCSD Ped2 基准测试中表现优异。
Sep, 2017
本文介绍了将事件流转化成基于网格的表示的通用框架,其具有两个主要优势:(i)允许端到端学习输入事件表示,(ii)提供了一个统一记录大多数事件表示的分类法,并识别出新的事件表示方法。通过实验证明,我们的端到端学习事件表示的方法相对于现有技术方法,在光流估计和目标识别上都有约 12%的改进。
Apr, 2019
用深度卷积神经网络所学习的表达来实现视频事件检测,并探究如何利用完整的 ImageNet 层次结构进行深度网络的预训练,其中引入一种基于 ImageNet 全部 21,814 个类别和超过 14 百万图像的自下而上和自上而下的方法以解决过于特定类别和类别图像数量不足的问题,并通过对 TRECVID Multimedia Event Detection 2013 和 2015 数据集的实验验证,得到了超过标准预训练和融合其他模态的结果,取得了最先进的事件检测结果。
Feb, 2016
针对运动视频分析的问题,我们提出了在粗略注释视频中进行事件检测的任务,并引入了一种多塔时间卷积网络的架构。该方法在 NHL 数据集上获得了 55%的平均 F1 分数,并在 SoccerNet 数据集上实现了与现有技术水平的竞争性表现。我们相信我们的方法将有助于开发更实用的运动视频事件检测流水线。
Apr, 2020
本文提出了一种基于深度卷积图神经网络的视频分类方法,利用视频的分层结构特性通过图网络对视频帧序列进行多级特征提取,获得反映事件语义的视频表示,其在 YouTube-8M 大规模视频理解数据集上的表现优于基于 RNN 的基准模型。
Jun, 2019
本文介绍了一种用于提高事件基于 CNNs 的训练数据的策略,可为视频重建网络和光流网络带来 20-40%的性能提升,并提出了一种新的高质量数据集 HQF 以解决事件基于视频重建缺乏质量地真实图像的问题。
Mar, 2020
本文提出了一种新的密集视频字幕生成框架,该框架将时间上的事件提案的本地化和生成句子主体的合并,通过端到端的联合训练结构。这种模型在 ActivityNet Captions 数据集上的实验显示出了与现有技术相比的明显改进,创造了 12.96%的新的 METEOR 记录。
Apr, 2018
本文介绍了一种基于事件相机的物体检测任务的解决方案,包括了首个高分辨率大规模数据集的发布、一种新的递归架构和一种时间一致性损失函数,这些对于更好的训练结果至关重要,而且在需要高动态范围,低延迟且具有挑战性的光照条件的情况下比传统的基于帧的解决方案更加高效而准确。
Sep, 2020