利用语言引导的自监督视频摘要生成方法，考虑视频多样性的文本语义匹配

May, 2024

利用语言引导的自监督视频摘要生成方法，考虑视频多样性的文本语义匹配

Language-Guided Self-Supervised Video Summarization Using Text Semantic Matching Considering the Diversity of the Video

Tomoya Sugihara, Shuntaro Masuda, Ling Xiao, Toshihiko Yamasaki

TL;DR通过使用大型语言模型作为引导，本文提出了一种新颖的自监督视频摘要框架，通过生成视频帧的字幕，并将其合成为文本摘要，衡量帧字幕和文本摘要之间的语义距离，最终选择与文本摘要相似的帧来生成摘要视频。该方法在视频摘要任务中取得了有竞争力的结果，并为视频摘要领域开辟了新的道路。

Abstract

Current video summarization methods primarily depend on supervised computer vision techniques, which demands time-consuming manual annotations. Further, the annotations are always subjective which make this task more challenging. To address these issues, we analyzed the feasibility in

video summarization supervised computer vision text summary large language models self-supervised framework

发现论文，激发创造

基于多模态自监督学习的渐进式视频摘要技术

本文介绍了一种基于深度神经网络的视频摘要方法，该方法使用了多模态自监督学习框架，该框架可以在不需要大规模标注数据的情况下，通过视频与文本之间的语义一致性来获取视频的语义表示，并提出了一种渐进式摘要方法。实验表明，该方法的排名相关系数和 F 分数均优于现有视频摘要方法。

Jan, 2022

大规模语言模型在视频摘要预训练中的扩展

利用大型语言模型生成大规模的视频摘要数据集，提出了一种新的视频摘要模型，并呈现了一个由专业人员注释的高质量摘要的基准数据集，实验证明该方法在多个基准测试中达到了最新的最佳效果。

Apr, 2024

视频摘要的有效性：量化语言在视频摘要中的影响

通过仅使用通过零样本方法获取的文本标题，我们提出了一种高效的纯文本视频摘要方法，能够以高数据效率实现有竞争力的准确性。我们通过训练语言转换模型并摒弃图像表示来进行视频摘要，从而允许我们在代表性文本向量之间进行筛选并压缩序列。我们的方法能够使自然语言解释能力易于人类理解，以及对视频的文本摘要。调查了模态性和数据压缩的消融研究表明，仅利用文本模态有效地减少了输入的数据处理量，同时保持了可比较的结果。

Sep, 2023

增强上下文感知的视频摘要

视频摘要是一个至关重要的研究领域，旨在从当今海量视频内容中高效浏览和检索相关信息。尽管视频摘要的重要性，缺乏多样化和有代表性的数据集阻碍了算法的全面评估和基准测试。为了克服数据稀缺的挑战并改进评估，我们提出了一种利用视频数据结构和信息生成信息摘要的无监督方法。此外，我们还引入了一种专门用于视频摘要的创新评估流程。实验结果表明，我们的无需训练的框架优于现有的无监督方法，并与最先进的监督方法取得竞争性结果。

Apr, 2024

无监督视频摘要

该论文介绍了一种利用生成对抗网络的思想进行自动视频摘要的新的无监督方法，消除了鉴别器，使用简单的损失函数，并将模型的不同部分训练分离。采用迭代式训练策略，交替训练重构器和帧选择器多次迭代。此外，该方法在训练和评估期间添加了一个可训练的掩码向量到模型中进行摘要生成。在两个公共数据集 (SumMe 和 TVSum) 和四个我们创建的数据集 (Soccer、LoL、MLB 和 ShortMLB) 上的实验证明了每个组件在模型性能上的有效性，特别是迭代式训练策略。与最先进的方法进行的评估和比较突出了该方法在性能、稳定性和训练效率上的优势。

Nov, 2023

基于条件建模的自动视频摘要

基于对人类生成的视频摘要的洞察，本论文提出了一种新的视频摘要方法，该方法利用条件建模的视角，引入多个有意义的随机变量和联合分布来刻画视频摘要的关键组成部分，并利用辅助分布改进模型的训练。设计了条件注意力模块来减轻多模态输入可能导致的性能下降，该方法融合了以上创新设计选择，旨在缩小人工生成和机器生成视频摘要之间的差距。大量实验证明该方法优于现有方法，并在常用视频摘要数据集上实现了最先进的性能。

Nov, 2023

HowToCaption: 规模化促使 LLMs 转化视频注释

利用大型语言模型从自动语音识别摘要中创建与视频对齐的细致视频描述，以达到大规模教学视频数据训练文本 - 视频模型的目的。这项工作应用于 HowTo100M 数据集的副标题，创建了一个新的大规模数据集 HowToCaption，其结果不仅显著改善了许多不同基准数据集上的文本 - 视频检索性能，还将文本叙述与音频相分离，在文本 - 视频 - 音频任务中提升了性能。

Oct, 2023

VideoXum: 视频的跨模态视觉和文本摘要

我们提出了一个新的联合视频和文本摘要任务，旨在生成一个缩短的视频剪辑和相应的文本摘要，我们通过构建一个大规模的人类注释数据集 - VideXum 来解决此问题，并使用新的度量标准 VT-CLIPScore 来评估跨模态摘要的语义一致性。我们提出的 VTSUM-BILP 模型在此任务上取得了有希望的性能，并为未来研究建立了基准。

Mar, 2023

多源特征无监督视频摘要

本文提出了通过结合多种特征源进行特征融合的视频摘要算法，该算法在两个基准测试数据集 TVSum 和 SumMe 上取得了最新的研究结果，并对以往的研究方法进行了评估，同时进行误差分析以找出导致分类错误的因素。

May, 2021

可查询的视频摘要

本文提出一种基于监督学习的、端到端深度学习的方法，用于生成与文本查询相关联的视频摘要。该方法提出了包括视频摘要控制器、视频摘要生成器和视频摘要输出模块在内的一整套系统，并介绍了一个包含帧级别相关性评分标签的数据集。实验结果表明，文本查询可以控制视频摘要，且可提高模型的性能。

Apr, 2020