视频级标签时间定位的多注意力网络

ICCVNov, 2019

视频级标签时间定位的多注意力网络

Multi-attention Networks for Temporal Localization of Video-level Labels

Lijun Zhang, Srinath Nizampatnam, Ahana Gangopadhyay, Marcos V. Conde

TL;DR本文提出一种多注意力机制的模型来解决视频理解中的时间定位问题，模型结合了多个注意力网络、深度帧模型、循环神经网络和卷积神经网络，并基于多实例多标签学习和 attention 权重来加强对视频中重要帧的关注，从而在 YouTube-8M Video Understanding Challenge 中取得了较好的成绩。

Abstract

Temporal localization remains an important challenge in video understanding. In this work, we present our solution to the 3rd YouTube-8M video understanding Challenge organized by Google Research. Participants we

video understanding segment-level classifier multiple instance multi-label learning attention-based mechanism convolutional neural networks

发现论文，激发创造

大规模 YouTube-8M 视频理解的时间建模方法

该论文介绍了我们的解决方案，用于 Google Cloud 和 YouTube-8M 视频理解挑战的视频识别任务，我们通过各种时间建模方法对帧级特征进行聚合以提高多标签视频识别的准确性，并在 Kaggle 的公共测试集上取得了 82.75% 的性能提升。

Jul, 2017

学习在大规模视频数据中本地化时间事件

该研究提出了两种方法来解决大规模视频数据中事件的时间定位问题，一种是采用梯度提升决策树模型，另一种是采用基于帧级数据、视频级数据和定位模型的深度学习模型组合，在第三届 Youtube-8M 视频识别挑战中获得第 5 名。

Oct, 2019

高效视频标注的深度学习方法

我们提出了三个模型家族的集成模型来解决 “Google Cloud 和 YouTube-8M 视频理解挑战”，训练使用增强数据集并配合交叉验证，最终排名第 5。

Jun, 2017

层级深度循环架构用于视频理解

本篇论文介绍了我们在 Youtube-8M 视频理解挑战中开发的系统，采用了规模庞大的基准数据集进行多标签视频分类。我们使用分层深度架构提出了两种注意池化方法并采用了集成学习方法，在公开测试集上达到了 GAP 0.84346 的成绩。

Jul, 2017

针对 YouTube-8M 数据集的多标签视频分类的视频和标签先验编码

本文介绍了针对 YouTube-8M 数据集进行多标签视频分类的深度神经网络模型，包括帧编码器、分类层、标签处理层和损失函数，并讨论了现有模型在该数据集上的效果及其成功或失败的原因，所提出的模型的大部分性能都高于基线模型，并且最终的模型集合在 Kaggle 比赛中排名第 8。

Jun, 2017

利用深度神经网络进行大规模 YouTube-8M 视频理解

本文基于 YouTube-8M 大规模数据集，提出了三种视频分类模型，分别基于帧池化和 LSTM 网络，第三个模型使用 Experts 混合中间层以增加模型容量，并进行了一系列处理不平衡训练数据的实验。

Jun, 2017

弱监督音频分类的多层注意力模型

本文提出了一个多级关注模型来解决弱标签音频分类问题。实验证明，与单级关注模型和 Google 基线相比，该模型在 Google 音频数据集上表现出更高的平均精度（mAP）。

Mar, 2018

基于注意力的多模态融合视频描述

本文提出了一种称为多模态注意力的方法，可以针对图像特征、运动特征和音频特征进行选择性关注，以促进视频描述的多模态信息融合，并在 Youtube2Text 数据集上取得了竞争状态 - of-the-art 的结果。

Jan, 2017

视频语义分割的时间记忆注意力

该研究提出了一种基于自我注意力机制和长远时间关系的 Temporal Memory Attention Network（TMANet），来达到视频语义分割的最佳性能，尤其在 Cityscapes 和 CamVid 数据集上表现出新的最佳性能，并且避免了消耗大量计算资源的精确光流建模的缺点。

Feb, 2021

大规模视频片段分类的 BERT 及测试时间增强

本研究基于框架级模型、BERT 模型以及测试时增强等方式，在第三届 YouTube-8M 视频理解比赛中，针对标签的本质出现时间对视频级标签进行了定位，并在 4M 的训练视频级数据和 237K 的注释视频段级数据上进行了预训练和微调，使模型在私人测试视频段数据上取得了 0.7871 的 MAP@100K，排名第 9 个。

Dec, 2019