YouTube-8M 视频理解挑战中的受限尺寸 TensorFlow 模型

ECCVAug, 2018

YouTube-8M 视频理解挑战中的受限尺寸 TensorFlow 模型

Constrained-size Tensorflow Models for YouTube-8M Video Understanding Challenge

Tianqi Liu, Bo Liu

TL;DR本文介绍了我们在第二届 YouTube-8M 视频理解竞赛中取得第七名的方案，该方案挑战参与者建立一个大小受限的模型来将数百万 YouTube 视频分类为数千个类别。我们的最终模型由四个单一的模型组成，并在评估和推断阶段集成它们，在不损失精度的情况下实现了 48.5％的压缩率，并在私人排行榜上取得了 88.324％的 GAP。

Abstract

This paper presents our 7th place solution to the second YouTube-8M video understanding competition which challenges participates to build a constrained-size model to classify millions of YouTube videos into thousands of classes. Our final model consists of four single models aggregated into one →

video classification youtube-8m competition tensorflow gated netvlad ensemble

发现论文，激发创造

UTS 提交给 Google YouTube-8M Challenge 2017

该研究提出了一种结合视频级别和帧级别特征识别的混合模型方法，使用循环神经网络、注意力机制和 1D 卷积模型实现帧级别分类，并使用集成模型在私人测试数据集上实现 GAP 0.8408 的分类效果。

Jul, 2017

高效视频标注的深度学习方法

我们提出了三个模型家族的集成模型来解决 “Google Cloud 和 YouTube-8M 视频理解挑战”，训练使用增强数据集并配合交叉验证，最终排名第 5。

Jun, 2017

视频分类的非本地化 NetVLAD 编码

本文介绍了我们在 Google AI 组织的第二届 YouTube-8M 视频理解挑战中的解决方案，该方案利用非本地操作实现了多个子模型的融合来有效地执行视频分类任务。

Sep, 2018

聚合帧级特征用于大规模视频分类

该研究介绍了在大规模 YouTube-8M 数据集上定义的多标签分类问题的系统的开发，其中使用了多种技术来聚合提供的帧级特征表示并生成视频级预测，包括多种变体的循环神经网络和广义 VLAD，以及多种融合策略来探索模型间的互补性。在官方指标 GAP@20 中，我们最佳的融合模型在公共测试数据的 50% 上达到了 0.84198，在私人测试数据的 50% 上达到了 0.84193，在 650 支队伍中排名第 4。

Jul, 2017

YouTube-8M Kaggle 竞赛：挑战和方法

本文介绍了我们参加 YouTube-8M 视频理解挑战的经历和成果，并提供了基于帧级数据的机器学习问题的深入分析和解决方案。我们通过统一平均的多剪辑集成方法，只使用提出的策略就实现了前十名的成绩，同时也介绍了一些有潜力但时间不足无法训练到收敛的方法。希望本文能起到对 YouTube-8M 多标签视频分类基准的一定回顾和指导作用，激发未来尝试和研究的灵感。

Jun, 2017

大规模 YouTube-8M 视频理解的时间建模方法

该论文介绍了我们的解决方案，用于 Google Cloud 和 YouTube-8M 视频理解挑战的视频识别任务，我们通过各种时间建模方法对帧级特征进行聚合以提高多标签视频识别的准确性，并在 Kaggle 的公共测试集上取得了 82.75% 的性能提升。

Jul, 2017

在 YouTube-8M 数据集上进行多标签视频分类的方法

利用 NetVLAD 和 NetFV 模型，使用 Huber 损失函数和 YouTube-8M 数据集实现视频分类问题，采用各种技术和优化方法，最终得到 GAP 得分 0.8668。

Aug, 2018

利用深度神经网络进行大规模 YouTube-8M 视频理解

本文基于 YouTube-8M 大规模数据集，提出了三种视频分类模型，分别基于帧池化和 LSTM 网络，第三个模型使用 Experts 混合中间层以增加模型容量，并进行了一系列处理不平衡训练数据的实验。

Jun, 2017

大规模视频片段分类的 BERT 及测试时间增强

本研究基于框架级模型、BERT 模型以及测试时增强等方式，在第三届 YouTube-8M 视频理解比赛中，针对标签的本质出现时间对视频级标签进行了定位，并在 4M 的训练视频级数据和 237K 的注释视频段级数据上进行了预训练和微调，使模型在私人测试视频段数据上取得了 0.7871 的 MAP@100K，排名第 9 个。

Dec, 2019

针对 YouTube-8M 数据集的多标签视频分类的视频和标签先验编码

本文介绍了针对 YouTube-8M 数据集进行多标签视频分类的深度神经网络模型，包括帧编码器、分类层、标签处理层和损失函数，并讨论了现有模型在该数据集上的效果及其成功或失败的原因，所提出的模型的大部分性能都高于基线模型，并且最终的模型集合在 Kaggle 比赛中排名第 8。

Jun, 2017