基于多模态自监督学习的渐进式视频摘要技术
通过使用大型语言模型作为引导,本文提出了一种新颖的自监督视频摘要框架,通过生成视频帧的字幕,并将其合成为文本摘要,衡量帧字幕和文本摘要之间的语义距离,最终选择与文本摘要相似的帧来生成摘要视频。该方法在视频摘要任务中取得了有竞争力的结果,并为视频摘要领域开辟了新的道路。
May, 2024
本文提出了通过结合多种特征源进行特征融合的视频摘要算法,该算法在两个基准测试数据集 TVSum 和 SumMe 上取得了最新的研究结果,并对以往的研究方法进行了评估,同时进行误差分析以找出导致分类错误的因素。
May, 2021
该论文介绍了一种利用生成对抗网络的思想进行自动视频摘要的新的无监督方法,消除了鉴别器,使用简单的损失函数,并将模型的不同部分训练分离。采用迭代式训练策略,交替训练重构器和帧选择器多次迭代。此外,该方法在训练和评估期间添加了一个可训练的掩码向量到模型中进行摘要生成。在两个公共数据集 (SumMe 和 TVSum) 和四个我们创建的数据集 (Soccer、LoL、MLB 和 ShortMLB) 上的实验证明了每个组件在模型性能上的有效性,特别是迭代式训练策略。与最先进的方法进行的评估和比较突出了该方法在性能、稳定性和训练效率上的优势。
Nov, 2023
该论文提出了一种基于深度视频特征和聚类的视频摘要技术,旨在更高效地生成互联网视频的概览,该技术通过设计一种映射视频和描述的深度神经网络来将视频元素转化为语义空间。
Sep, 2016
本文提出了一种基于提示的增量视频摘要方法,采用少样本的方式提取语义概念并结合聚类和查询技术提高摘要生成效率,并通过实验证明使用视频中相关实体和动作作为提示能够增强模型生成的摘要。
Mar, 2023
本文介绍了一种利用自我监督和伪标记来预先训练深度模型,并提出了一种含义增强器和相互关注的方法来生成上下文感知的查询表示,以改进视频摘要任务的性能,并在常见的视频摘要 benchmark 中获得了最先进的性能。
Jul, 2023
本文提出了一种基于文档和相关视频的新型多模态摘要任务,并构建了一个基于 bi-hop attention 和改进的 late fusion 机制的双流摘要模型,旨在同时处理文本和视频摘要。实验结果表明,该模型有利于多模态摘要且优于现有方法,同时构建了一个新的文档和视频数据集作为未来研究的资源。
Sep, 2020
我们提出了一个名为 MultimodalSum 的自监督多模态意见摘要框架,它利用非文本数据如图像和元数据,通过分别为每种模态使用单独的编码器来获得每种模态的表征,并使用文本解码器生成摘要,最终通过多模态训练管道来融合多模态信息以提高摘要生成效果。在 Yelp 和 Amazon 数据集上的实验结果表明 MultimodalSum 的优越性。
May, 2021
利用大型语言模型生成大规模的视频摘要数据集,提出了一种新的视频摘要模型,并呈现了一个由专业人员注释的高质量摘要的基准数据集,实验证明该方法在多个基准测试中达到了最新的最佳效果。
Apr, 2024
视频摘要是一个至关重要的研究领域,旨在从当今海量视频内容中高效浏览和检索相关信息。尽管视频摘要的重要性,缺乏多样化和有代表性的数据集阻碍了算法的全面评估和基准测试。为了克服数据稀缺的挑战并改进评估,我们提出了一种利用视频数据结构和信息生成信息摘要的无监督方法。此外,我们还引入了一种专门用于视频摘要的创新评估流程。实验结果表明,我们的无需训练的框架优于现有的无监督方法,并与最先进的监督方法取得竞争性结果。
Apr, 2024