Batch Normalized LSTM 引导的大规模视频分类

CVPRJul, 2017

Batch Normalized LSTM 引导的大规模视频分类

Large-scale Video Classification guided by Batch Normalized LSTM Translator

Jae Hyeon Yoo

TL;DR该论文提出一种基于深度循环神经网络的在线学习方法，将标签视为单词，用于视频的多标签分类，通过对输入的随机门控和批量归一化的采用进一步改进了模型，有效提高了在 Youtube-8M 数据集上的识别结果。

Abstract

youtube-8m dataset enhances the development of large-scale video recognition technology as ImageNet dataset has encouraged image classification, recognition and detection of artificial intelligence fields. For th

youtube-8m video recognition deep learning multi-label classification lstm

发现论文，激发创造

利用深度神经网络进行大规模 YouTube-8M 视频理解

本文基于 YouTube-8M 大规模数据集，提出了三种视频分类模型，分别基于帧池化和 LSTM 网络，第三个模型使用 Experts 混合中间层以增加模型容量，并进行了一系列处理不平衡训练数据的实验。

Jun, 2017

针对 YouTube-8M 数据集的多标签视频分类的视频和标签先验编码

本文介绍了针对 YouTube-8M 数据集进行多标签视频分类的深度神经网络模型，包括帧编码器、分类层、标签处理层和损失函数，并讨论了现有模型在该数据集上的效果及其成功或失败的原因，所提出的模型的大部分性能都高于基线模型，并且最终的模型集合在 Kaggle 比赛中排名第 8。

Jun, 2017

YouTube-8M: 大规模视频分类基准

该论文介绍了一个由 4800 个可视实体组成，由 8 百万个视频（500k 小时的视频）组成的最大多标签视频分类数据集 YouTube-8M，并通过训练各种分类模型和评估它们来作为基准。

Sep, 2016

大规模 YouTube-8M 视频理解的时间建模方法

该论文介绍了我们的解决方案，用于 Google Cloud 和 YouTube-8M 视频理解挑战的视频识别任务，我们通过各种时间建模方法对帧级特征进行聚合以提高多标签视频识别的准确性，并在 Kaggle 的公共测试集上取得了 82.75% 的性能提升。

Jul, 2017

使用深度递归神经网络将视频翻译为自然语言

本篇论文提出直接利用统一深度神经网络将视频转换为句子的方法，并通过将知识从含标记种类超过 120 万张图像和带字幕的超过 100,000 张图像中迁移而创建具有大型词汇库的开放域视频句子描述。通过与语言生成度量，主语，动词和宾语预测准确度以及人的评估进行比较，证明本方法的有效性。

Dec, 2014

高效视频标注的深度学习方法

我们提出了三个模型家族的集成模型来解决 “Google Cloud 和 YouTube-8M 视频理解挑战”，训练使用增强数据集并配合交叉验证，最终排名第 5。

Jun, 2017

视频级标签时间定位的多注意力网络

本文提出一种多注意力机制的模型来解决视频理解中的时间定位问题，模型结合了多个注意力网络、深度帧模型、循环神经网络和卷积神经网络，并基于多实例多标签学习和 attention 权重来加强对视频中重要帧的关注，从而在 YouTube-8M Video Understanding Challenge 中取得了较好的成绩。

Nov, 2019

基于文本挖掘的语言知识提升的 LSTM 视频描述

本文探讨了如何从大型文本语料库中挖掘语言知识以帮助生成视频的自然语言描述，并将神经语言模型和分布式语义训练应用于最近的基于 LSTM 的视频描述体系结构。我们在一组 Youtube 视频和两个大型电影描述数据集上评估了我们的方法，在改善语法正确性的同时适度提高了描述质量。

Apr, 2016

聚合帧级特征用于大规模视频分类

该研究介绍了在大规模 YouTube-8M 数据集上定义的多标签分类问题的系统的开发，其中使用了多种技术来聚合提供的帧级特征表示并生成视频级预测，包括多种变体的循环神经网络和广义 VLAD，以及多种融合策略来探索模型间的互补性。在官方指标 GAP@20 中，我们最佳的融合模型在公共测试数据的 50% 上达到了 0.84198，在私人测试数据的 50% 上达到了 0.84193，在 650 支队伍中排名第 4。

Jul, 2017

电影描述的长短故事

本文研究使用图像及视频描述辅助盲人及人机交互的应用。通过使用预训练的对象分类器 CNNs 以及 LSTMs，学习生成描述的算法，并在 MPII-MD 数据集上获得了目前最佳性能。

Jun, 2015