可学习的池化方法用于视频分类

ECCVOct, 2018

Learnable Pooling Methods for Video Classification

Sebastian Kmiec, Juhan Bae, Ruijian An

TL;DR本研究旨在通过引入基于注意力机制和函数逼近的方法来改进局部视频描述符集成的现有方法，并提出了创建新体系结构的见解。在使用帧级视频和音频描述符的 'The 2nd YouTube-8M Video Understanding Challenge' 中展示了我们的解决方案。通过满足预算约束条件，我们获得了类似于现有技术的测试准确性，并探讨了改进现有技术的策略。模型实现可在此 https URL 中获得。

Abstract

We introduce modifications to state-of-the-art approaches to aggregating local video descriptors by using attention mechanisms and function approximations. Rather than using ensembles of existing architectures, w

video attention mechanisms function approximations youtube-8m video understanding challenge model implementations

发现论文，激发创造

视频级标签时间定位的多注意力网络

本文提出一种多注意力机制的模型来解决视频理解中的时间定位问题，模型结合了多个注意力网络、深度帧模型、循环神经网络和卷积神经网络，并基于多实例多标签学习和 attention 权重来加强对视频中重要帧的关注，从而在 YouTube-8M Video Understanding Challenge 中取得了较好的成绩。

Nov, 2019

使用上下文门控的可学习池化方法进行视频分类

通过聚类聚合和可学习的非线性单元 Context Gating 模型改进了现有视频表达方式，提高了视频分类准确率。

Jun, 2017

高效视频标注的深度学习方法

我们提出了三个模型家族的集成模型来解决 “Google Cloud 和 YouTube-8M 视频理解挑战”，训练使用增强数据集并配合交叉验证，最终排名第 5。

Jun, 2017

层级深度循环架构用于视频理解

本篇论文介绍了我们在 Youtube-8M 视频理解挑战中开发的系统，采用了规模庞大的基准数据集进行多标签视频分类。我们使用分层深度架构提出了两种注意池化方法并采用了集成学习方法，在公开测试集上达到了 GAP 0.84346 的成绩。

Jul, 2017

聚合帧级特征用于大规模视频分类

该研究介绍了在大规模 YouTube-8M 数据集上定义的多标签分类问题的系统的开发，其中使用了多种技术来聚合提供的帧级特征表示并生成视频级预测，包括多种变体的循环神经网络和广义 VLAD，以及多种融合策略来探索模型间的互补性。在官方指标 GAP@20 中，我们最佳的融合模型在公共测试数据的 50% 上达到了 0.84198，在私人测试数据的 50% 上达到了 0.84193，在 650 支队伍中排名第 4。

Jul, 2017

利用深度神经网络进行大规模 YouTube-8M 视频理解

本文基于 YouTube-8M 大规模数据集，提出了三种视频分类模型，分别基于帧池化和 LSTM 网络，第三个模型使用 Experts 混合中间层以增加模型容量，并进行了一系列处理不平衡训练数据的实验。

Jun, 2017

UTS 提交给 Google YouTube-8M Challenge 2017

该研究提出了一种结合视频级别和帧级别特征识别的混合模型方法，使用循环神经网络、注意力机制和 1D 卷积模型实现帧级别分类，并使用集成模型在私人测试数据集上实现 GAP 0.8408 的分类效果。

Jul, 2017

使用大量异构神经网络进行标签去噪

该研究讨论了使用知识蒸馏和混合技术的集成模型的方法，以解决大规模视频分类问题。

Sep, 2018

YouTube-8M Kaggle 竞赛：挑战和方法

本文介绍了我们参加 YouTube-8M 视频理解挑战的经历和成果，并提供了基于帧级数据的机器学习问题的深入分析和解决方案。我们通过统一平均的多剪辑集成方法，只使用提出的策略就实现了前十名的成绩，同时也介绍了一些有潜力但时间不足无法训练到收敛的方法。希望本文能起到对 YouTube-8M 多标签视频分类基准的一定回顾和指导作用，激发未来尝试和研究的灵感。

Jun, 2017

大规模 YouTube-8M 视频理解的时间建模方法

该论文介绍了我们的解决方案，用于 Google Cloud 和 YouTube-8M 视频理解挑战的视频识别任务，我们通过各种时间建模方法对帧级特征进行聚合以提高多标签视频识别的准确性，并在 Kaggle 的公共测试集上取得了 82.75% 的性能提升。

Jul, 2017