本文基于 YouTube-8M 大规模数据集,提出了三种视频分类模型,分别基于帧池化和 LSTM 网络,第三个模型使用 Experts 混合中间层以增加模型容量,并进行了一系列处理不平衡训练数据的实验。
Jun, 2017
本文介绍了针对 YouTube-8M 数据集进行多标签视频分类的深度神经网络模型,包括帧编码器、分类层、标签处理层和损失函数,并讨论了现有模型在该数据集上的效果及其成功或失败的原因,所提出的模型的大部分性能都高于基线模型,并且最终的模型集合在 Kaggle 比赛中排名第 8。
该论文介绍了一个由 4800 个可视实体组成,由 8 百万个视频(500k 小时的视频)组成的最大多标签视频分类数据集 YouTube-8M,并通过训练各种分类模型和评估它们来作为基准。
Sep, 2016
该论文介绍了我们的解决方案,用于 Google Cloud 和 YouTube-8M 视频理解挑战的视频识别任务,我们通过各种时间建模方法对帧级特征进行聚合以提高多标签视频识别的准确性,并在 Kaggle 的公共测试集上取得了 82.75% 的性能提升。
Jul, 2017
本篇论文提出直接利用统一深度神经网络将视频转换为句子的方法,并通过将知识从含标记种类超过 120 万张图像和带字幕的超过 100,000 张图像中迁移而创建具有大型词汇库的开放域视频句子描述。通过与语言生成度量,主语,动词和宾语预测准确度以及人的评估进行比较,证明本方法的有效性。
Dec, 2014
我们提出了三个模型家族的集成模型来解决 “Google Cloud 和 YouTube-8M 视频理解挑战”,训练使用增强数据集并配合交叉验证,最终排名第 5。
本文提出一种多注意力机制的模型来解决视频理解中的时间定位问题,模型结合了多个注意力网络、深度帧模型、循环神经网络和卷积神经网络,并基于多实例多标签学习和 attention 权重来加强对视频中重要帧的关注,从而在 YouTube-8M Video Understanding Challenge 中取得了较好的成绩。
Nov, 2019
本文探讨了如何从大型文本语料库中挖掘语言知识以帮助生成视频的自然语言描述,并将神经语言模型和分布式语义训练应用于最近的基于 LSTM 的视频描述体系结构。我们在一组 Youtube 视频和两个大型电影描述数据集上评估了我们的方法,在改善语法正确性的同时适度提高了描述质量。
Apr, 2016
该研究介绍了在大规模 YouTube-8M 数据集上定义的多标签分类问题的系统的开发,其中使用了多种技术来聚合提供的帧级特征表示并生成视频级预测,包括多种变体的循环神经网络和广义 VLAD,以及多种融合策略来探索模型间的互补性。在官方指标 GAP@20 中,我们最佳的融合模型在公共测试数据的 50% 上达到了 0.84198,在私人测试数据的 50% 上达到了 0.84193,在 650 支队伍中排名第 4。
本文研究使用图像及视频描述辅助盲人及人机交互的应用。通过使用预训练的对象分类器 CNNs 以及 LSTMs,学习生成描述的算法,并在 MPII-MD 数据集上获得了目前最佳性能。
Jun, 2015