利用深度神经网络进行大规模 YouTube-8M 视频理解
本论文提出和评估了几个深度神经网络架构,用于对比以往更长时间段内视频图像信息的组合。通过一些新的方法,包括卷积时间特征池化和循环神经网络结构,该论文指出最佳神经网络在 Sports 1 million 数据集(73.1%对 60.9%)和 UCF-101 数据集中(88.6%对 88.0%)及无附加光流信息(82.6%对 72.8%)上明显性能提高。
Mar, 2015
该论文提出一种基于深度循环神经网络的在线学习方法,将标签视为单词,用于视频的多标签分类,通过对输入的随机门控和批量归一化的采用进一步改进了模型,有效提高了在 Youtube-8M 数据集上的识别结果。
Jul, 2017
该论文介绍了我们的解决方案,用于 Google Cloud 和 YouTube-8M 视频理解挑战的视频识别任务,我们通过各种时间建模方法对帧级特征进行聚合以提高多标签视频识别的准确性,并在 Kaggle 的公共测试集上取得了 82.75% 的性能提升。
Jul, 2017
本文介绍了针对 YouTube-8M 数据集进行多标签视频分类的深度神经网络模型,包括帧编码器、分类层、标签处理层和损失函数,并讨论了现有模型在该数据集上的效果及其成功或失败的原因,所提出的模型的大部分性能都高于基线模型,并且最终的模型集合在 Kaggle 比赛中排名第 8。
Jun, 2017
本文提出了一种针对视频进行自动化重点帧或子镜头选择的新型监督学习技术,其将问题视为顺序数据上的结构化预测问题,主要想法是利用 LSTM(长短时记忆),该专用网络类型可模拟视频摘要任务中包含的可变范围依赖性,详细分析证明了模型设计的合理性,通过引入领域适应技术,我们还介绍了应对训练复杂学习模型所需大量注释数据需求的技术。
May, 2016
我们提出了三个模型家族的集成模型来解决 “Google Cloud 和 YouTube-8M 视频理解挑战”,训练使用增强数据集并配合交叉验证,最终排名第 5。
Jun, 2017
本文提出了一个基于深度学习神经网络的方法来自动识别监控视频中的暴力行为,具有很高的识别精度。该方法采用卷积神经网络和长短时记忆网络,能够捕捉到视频中局部的时空特征,实现对局部运动的分析,并通过对相邻帧的差异计算来增强所提出方法的识别功能。实验证明,该方法表现优于现有的同类方法,具有广泛的研究价值。
Sep, 2017
该论文介绍了一个由 4800 个可视实体组成,由 8 百万个视频(500k 小时的视频)组成的最大多标签视频分类数据集 YouTube-8M,并通过训练各种分类模型和评估它们来作为基准。
Sep, 2016
本文研究如何利用多模态线索来改进视频分类。我们提出了一个混合的深度学习框架,它将静态空间外观信息、短时间内的运动模式、音频信息以及长时序动态性等多个模态的线索集成起来,以捕捉它们之间的关系,并通过多次实验表明,该框架可以提高视频分类的准确度。
Jun, 2017
本文提出了一种混合式深度学习框架,旨在对视频的静态空间信息、短期运动以及长期时间线索进行建模,并且在 UCF-101 人体动作和 Columbia 消费者视频两个标注数据集上实验,结果表明该框架相对于传统策略具有更高的性能.
Apr, 2015