使用文本数据的强化学习快进视频

CVPRMar, 2020

使用文本数据的强化学习快进视频

Straight to the Point: Fast-forwarding Videos via Reinforcement Learning Using Textual Data

Washington Ramos, Michel Silva, Edson Araujo, Leandro Soriano Marcolino, Erickson Nascimento

TL;DR本文提出一种基于强化学习的方法来加速教学视频，该方法可以自适应地选择不相关的帧以缩小输入视频，同时使用 Visually-guided Document Attention Network（VDAN）产生高度判别的嵌入空间来表示文本和视觉数据，实验证明本方法在视频段水平上实现了最佳的 F1 Score 和覆盖率。

Abstract

The rapid increase in the amount of published visual data and the limited time of users bring the demand for processing untrimmed videos to produce shorter versions that convey the same information. Despite the remarkable progress that has been made by summarization methods, most of them can only select a few frames or skims, which creates visual gaps and br

video summarization reinforcement learning instructional videos visually-guided document attention network f1 score

发现论文，激发创造

FFNet：基于强化学习的视频快进

本文介绍了利用视频摘要和强化学习的灵感，针对计算、通信、存储和能源资源有限的应用，提出了一个在线框架 FastForwardNet（FFNet），该框架可以自动快进视频并实时将代表性帧的子集呈现给用户，大大提高了处理效率和视频表示准确度。

May, 2018

基于多模态自监督学习的渐进式视频摘要技术

本文介绍了一种基于深度神经网络的视频摘要方法，该方法使用了多模态自监督学习框架，该框架可以在不需要大规模标注数据的情况下，通过视频与文本之间的语义一致性来获取视频的语义表示，并提出了一种渐进式摘要方法。实验表明，该方法的排名相关系数和 F 分数均优于现有视频摘要方法。

Jan, 2022

层次强化学习实现弱监督视频摘要

提出了一种基于弱监督分层强化学习框架的视频摘要算法，该算法将任务分解为多个子任务，通过训练管理器网络为每个子任务设置子目标，在此基础上使用策略梯度预测视频帧的重要性得分，通过定义的子奖励和全局奖励来解决稀疏问题，并在两个基准数据集上实验证明其具有最佳性能。

Jan, 2020

综合视频理解：基于内容的视频推荐器设计的视频摘要

该论文将视频摘要提出了内容为基础的推荐问题，使用可扩展的深度神经网络在显式建模的片段和视频上进行预测，通过场景和动作识别来寻找视频理解任务不同方面之间的相关性，同时讨论音频和视觉特征在总结任务中的影响，并通过数据增强和多任务学习来防止模型过度拟合。该模型最终在 ICCV 2019 CoView Workshop Challenge Track 中获得第一名。

Oct, 2019

阅读，观看和移动：用强化学习将自然语言描述与视频时序地联系起来

本文通过强化学习和多任务学习建立一个分阶段调整临时定位边界的代理模型，在考虑附加边界信息的训练过程中稳步提高绩效，达到了 ActivityNet'18 DenseCaption 和 Charades-STA 数据集上的最优性能。

Jan, 2019

使用深度强化学习进行分类的视频摘要

本研究提出了基于增强学习的弱监督视频摘要方法，利用易于获得的视频级别类别标签，并通过训练深度 Q 学习（DQSN）的摘要网络，鼓励摘要包含类别相关信息和保持类别识别性。实验结果表明，该方法在两个基准数据集上均达到了最先进的性能。

Jul, 2018

基于条件建模的自动视频摘要

基于对人类生成的视频摘要的洞察，本论文提出了一种新的视频摘要方法，该方法利用条件建模的视角，引入多个有意义的随机变量和联合分布来刻画视频摘要的关键组成部分，并利用辅助分布改进模型的训练。设计了条件注意力模块来减轻多模态输入可能导致的性能下降，该方法融合了以上创新设计选择，旨在缩小人工生成和机器生成视频摘要之间的差距。大量实验证明该方法优于现有方法，并在常用视频摘要数据集上实现了最先进的性能。

Nov, 2023

增强上下文感知的视频摘要

视频摘要是一个至关重要的研究领域，旨在从当今海量视频内容中高效浏览和检索相关信息。尽管视频摘要的重要性，缺乏多样化和有代表性的数据集阻碍了算法的全面评估和基准测试。为了克服数据稀缺的挑战并改进评估，我们提出了一种利用视频数据结构和信息生成信息摘要的无监督方法。此外，我们还引入了一种专门用于视频摘要的创新评估流程。实验结果表明，我们的无需训练的框架优于现有的无监督方法，并与最先进的监督方法取得竞争性结果。

Apr, 2024

质量感知相关性估计的查询自适应视频摘要

该研究利用神经网络诱导的文本视觉语义嵌入空间，将查询相关汇总作为视频帧子集选择问题进行提出，该方法在多个方面优于先前的技术，并引入具有多样性和查询特定相关性标签的新数据集进行模型训练和测试。

May, 2017

超越框架：用户定义长度的单个和多个视频摘要方法

本文结合了多种自然语言处理技术和视频处理技术，将长视频转换为相对较短的单一视频，还探索了多个视频的合并摘要，证明视频摘要是一项困难但重要的工作，具有进一步研究和开发的潜力，这得益于自然语言处理模型的发展。

Dec, 2023