视频分类的非本地化 NetVLAD 编码
该研究介绍了在大规模 YouTube-8M 数据集上定义的多标签分类问题的系统的开发,其中使用了多种技术来聚合提供的帧级特征表示并生成视频级预测,包括多种变体的循环神经网络和广义 VLAD,以及多种融合策略来探索模型间的互补性。在官方指标 GAP@20 中,我们最佳的融合模型在公共测试数据的 50% 上达到了 0.84198,在私人测试数据的 50% 上达到了 0.84193,在 650 支队伍中排名第 4。
Jul, 2017
利用 NetVLAD 和 NetFV 模型,使用 Huber 损失函数和 YouTube-8M 数据集实现视频分类问题,采用各种技术和优化方法,最终得到 GAP 得分 0.8668。
Aug, 2018
介绍了一种快速高效的网络结构 NeXtVLAD,用于将帧级特征聚合成一个紧凑的特征向量以进行大规模视频分类,在第二个 Youtube-8M 视频理解挑战中,单个 NeXtVLAD 模型只使用少于 80M 的参数就实现了 0.87846 的 GAP 分数,在 394 个团队中排名第 3。
Nov, 2018
我们提出了三个模型家族的集成模型来解决 “Google Cloud 和 YouTube-8M 视频理解挑战”,训练使用增强数据集并配合交叉验证,最终排名第 5。
Jun, 2017
该研究提出了一种结合视频级别和帧级别特征识别的混合模型方法,使用循环神经网络、注意力机制和 1D 卷积模型实现帧级别分类,并使用集成模型在私人测试数据集上实现 GAP 0.8408 的分类效果。
Jul, 2017
本研究基于框架级模型、BERT 模型以及测试时增强等方式,在第三届 YouTube-8M 视频理解比赛中,针对标签的本质出现时间对视频级标签进行了定位,并在 4M 的训练视频级数据和 237K 的注释视频段级数据上进行了预训练和微调,使模型在私人测试视频段数据上取得了 0.7871 的 MAP@100K,排名第 9 个。
Dec, 2019
该论文介绍了我们的解决方案,用于 Google Cloud 和 YouTube-8M 视频理解挑战的视频识别任务,我们通过各种时间建模方法对帧级特征进行聚合以提高多标签视频识别的准确性,并在 Kaggle 的公共测试集上取得了 82.75% 的性能提升。
Jul, 2017
本文介绍了我们在第二届 YouTube-8M 视频理解竞赛中取得第七名的方案,该方案挑战参与者建立一个大小受限的模型来将数百万 YouTube 视频分类为数千个类别。我们的最终模型由四个单一的模型组成,并在评估和推断阶段集成它们,在不损失精度的情况下实现了 48.5%的压缩率,并在私人排行榜上取得了 88.324%的 GAP。
Aug, 2018
本文提出一种多注意力机制的模型来解决视频理解中的时间定位问题,模型结合了多个注意力网络、深度帧模型、循环神经网络和卷积神经网络,并基于多实例多标签学习和 attention 权重来加强对视频中重要帧的关注,从而在 YouTube-8M Video Understanding Challenge 中取得了较好的成绩。
Nov, 2019
本文基于 YouTube-8M 大规模数据集,提出了三种视频分类模型,分别基于帧池化和 LSTM 网络,第三个模型使用 Experts 混合中间层以增加模型容量,并进行了一系列处理不平衡训练数据的实验。
Jun, 2017