视频分类与字幕的深度学习

Sep, 2016

Deep Learning for Video Classification and Captioning

Zuxuan Wu, Ting Yao, Yanwei Fu, Yu-Gang Jiang

TL;DR本文主要关注于评估使用深度学习来理解视频中的内容的两个方向，即视频分类和视频字幕生成，并对常用基准和竞赛进行了回顾。

Abstract

Accelerated by the tremendous increase in Internet bandwidth and storage space, video data has been generated, published and spread explosively, becoming an indispensable part of today's big data. In this paper, we focus on reviewing two lines of research aiming to stimulate the compre

video data deep learning video classification video captioning benchmarks

发现论文，激发创造

深度学习在视频字幕生成中的综述

本文介绍了视频字幕生成技术的研究现状和面临的挑战，重点讨论了基于深度学习的方法，涵盖了多种架构及其应用领域，如问答、检索等。

Apr, 2023

图像字幕的深度学习综述

该研究综述了基于深度学习的图像描述技术，包括目标识别、句子生成及评估度量等方面进行了探讨。

Oct, 2018

视频字幕及其应用的综合方法

本研究通过关键帧识别和允许用户平衡速度和准确率的设计，使用深度学习算法对长视频进行编码，提高速度并减少计算量，以实现视频字幕深度学习应用。

Jan, 2022

简化密集视频字幕生成

本文提出了一种新颖的密集视频字幕框架，它通过显式建模视频中事件的时间依赖性并利用先前事件的视觉和语言上下文来实现连贯的叙述。该框架由事件序列生成网络和序列视频字幕网络组成，后者利用强化学习进行训练，并在事件和剧集两个级别上进行两级奖励以实现更好的上下文建模。在大多数指标上，该方法在 ActivityNet Captions 数据集上取得了出色的表现。

Apr, 2019

利用深度神经网络进行大规模 YouTube-8M 视频理解

本文基于 YouTube-8M 大规模数据集，提出了三种视频分类模型，分别基于帧池化和 LSTM 网络，第三个模型使用 Experts 混合中间层以增加模型容量，并进行了一系列处理不平衡训练数据的实验。

Jun, 2017

深度学习视频预测技术综述

本文回顾了用于视频序列预测的深度学习方法，定义了视频预测的基础知识、强调其对表示学习的潜在能力和现有的方法，并提供了数据集和实验结果，以评估其在定量基础上的最新技术进展。最后，总结了这一领域的一般结论、未来的研究方向和挑战。

Apr, 2020

基于帧和视频级特征以及视觉内容分类的循环网络视频字幕生成

本文介绍了使用循环神经网络（RNN）生成短视频文本描述的系统，利用静态图像特征和视频专属特征的 RNN，我们研究了视觉内容分类器作为额外信息源的实用性，并通过实验结果证明了密集轨迹视频特征和内容分类器输出的利用，可以比单独利用它们表现更好。

Dec, 2015

从展示到描述：深度学习图像字幕化综述

本文综合研究图像描述中的视觉编码、文本生成、训练策略、数据集和评估指标等方面，量化比较多个相关的最前沿方法，以识别体系结构和训练策略中最具影响力的技术创新并探讨问题的许多变体和开放挑战，旨在为理解现有文献和强调计算机视觉和自然语言处理领域的未来方向提供工具。

Jul, 2021

关于视频分割的深度学习技术调查

该论文综述了在视频分割中使用的深度学习算法，其中包括了对象分割和语义分割，同时提供了这两种方法和数据集的详细概述，以及在几个知名数据集上的性能评估和未来研究的机会。

Jul, 2021

端到端密集视频字幕生成

本文提出一种联合建模的方法，将稠密视频字幕的两个子任务共同作为一个序列生成任务，同时预测事件和相应的描述，并使用 YouCook2 和 ViTT 的实验结果表明了该方法的可行性和在大规模预训练模型中集成端到端密集视频字幕等复杂任务中的适用性。

Apr, 2022