精益求精：选择信息量丰富的视频帧进行视频字幕生成

Mar, 2018

精益求精：选择信息量丰富的视频帧进行视频字幕生成

Less Is More: Picking Informative Frames for Video Captioning

Yangyu Chen, Shuhui Wang, Weigang Zhang, Qingming Huang

TL;DR提出了一种基于强化学习的编码器 - 解码器框架下的 PickNet 模型，用于在视频字幕任务中选择关键帧以提升性能，该模型最终选择的少量帧能够高质量的代表整个视频序列，更具视觉多样性与文本一致性。

Abstract

In video captioning task, the best practice has been achieved by attention-based models which associate salient visual components with sentences in the video. However, existing study follows a common procedure wh

video captioning attention-based models frame picking reinforcement learning visual diversity

发现论文，激发创造

揭示视频及语言学习中的单帧偏差

本文探讨了视频与语言学习中基于单帧的模型的应用，结果表明在大规模预训练条件下，采用适当的帧合并策略的单帧训练模型在某些视频与语言任务方面表现更佳，并且作者提出了两个基于现有细粒度动作识别数据集的检索任务，以便更全面地评估视频与语言模型。

Jun, 2022

视频字幕及其应用的综合方法

本研究通过关键帧识别和允许用户平衡速度和准确率的设计，使用深度学习算法对长视频进行编码，提高速度并减少计算量，以实现视频字幕深度学习应用。

Jan, 2022

展示、编辑、描述：一种编辑图像标题的框架

本文提出了一种基于迭代自适应改进现有标题的图像字幕生成的新方法，该方法包括两个子模块：一个具有自适应复制机制和选择性复制存储器注意机制的语言模块 EditNet 和一个基于 LSTM 的去噪自编码器 DCNet，实验表明我们的方法在 MS COCO 数据集上取得了最先进的性能。

Mar, 2020

准确快速压缩视频字幕生成

在压缩领域中，通过使用简单而有效的端到端转换器实现从压缩视频中进行学习并进行视频字幕生成，该方法在不同基准测试中取得了最先进的性能，并且运行速度比现有方法快近 2 倍。

Sep, 2023

使用文本数据的强化学习快进视频

本文提出一种基于强化学习的方法来加速教学视频，该方法可以自适应地选择不相关的帧以缩小输入视频，同时使用 Visually-guided Document Attention Network（VDAN）产生高度判别的嵌入空间来表示文本和视觉数据，实验证明本方法在视频段水平上实现了最佳的 F1 Score 和覆盖率。

Mar, 2020

视频问答中基于密集字幕匹配和帧选择门控的时间定位

本文提出了一种视频问答模型，它有效地集成了多模态输入源并从中找到临时相关信息以回答问题，该模型包括多种设计方法，包括基于稠密图像标题的对象及其详细显著区域和动作识别，双重关注，跨集成和引入了带有人类重要性注释来更好地监督模型的两个损失函数的门控，这个模型在多个数据集上的表现优于现有的技术。

May, 2020

使用重新聚焦的视频编码器进行视频字幕

本文提出了一种新的递归视频编码方法和新的视觉空间特征，以改进视频字幕生成任务的效果，实验结果表明，该方法能显著提高视频字幕生成质量。

Jul, 2019

基于帧和视频级特征以及视觉内容分类的循环网络视频字幕生成

本文介绍了使用循环神经网络（RNN）生成短视频文本描述的系统，利用静态图像特征和视频专属特征的 RNN，我们研究了视觉内容分类器作为额外信息源的实用性，并通过实验结果证明了密集轨迹视频特征和内容分类器输出的利用，可以比单独利用它们表现更好。

Dec, 2015

简化密集视频字幕生成

本文提出了一种新颖的密集视频字幕框架，它通过显式建模视频中事件的时间依赖性并利用先前事件的视觉和语言上下文来实现连贯的叙述。该框架由事件序列生成网络和序列视频字幕网络组成，后者利用强化学习进行训练，并在事件和剧集两个级别上进行两级奖励以实现更好的上下文建模。在大多数指标上，该方法在 ActivityNet Captions 数据集上取得了出色的表现。

Apr, 2019

太多的帧，不全是有用的：长篇视频问答的高效策略

长篇视频中的关键帧选择和顺序感知字幕生成能够显著减少信息冗余，我们提出的 LVNet 框架通过两种新的方法在 LVQA 基准数据集上实现了最先进的性能。

Jun, 2024