包含视频的文档的多模式摘要
我们提出了一个新的联合视频和文本摘要任务,旨在生成一个缩短的视频剪辑和相应的文本摘要,我们通过构建一个大规模的人类注释数据集 - VideXum 来解决此问题,并使用新的度量标准 VT-CLIPScore 来评估跨模态摘要的语义一致性。我们提出的 VTSUM-BILP 模型在此任务上取得了有希望的性能,并为未来研究建立了基准。
Mar, 2023
研究了多源建模摘要提取方法在开放领域视频领域的应用。通过构建一个多源的序列 - 序列模型,集成来自视频和音频文字转写的信息,完成了一个流利的文本摘要,并使用 Content F1 评价指标来度量其语义适当性。
Jun, 2019
本文提出了基于因果关系的视频摘要器(CVS),它采用了概率编码器和概率解码器来有效地捕捉视频和查询之间的交互信息,从而提高了多模态视频摘要的精度。与现有的方法相比,CVS 的准确度提高了 5.4%,F 1 - 得分提高了 4.92%。
Jul, 2023
本文综述了多模式自动摘要 (MMS) 领域内的现有研究,包括文本、图像、音频和视频等各种模式。除了强调用于 MMS 任务的不同评估指标和数据集之外,我们的工作还讨论了该领域中当前的挑战和未来方向。
Sep, 2021
本文介绍了一种基于深度神经网络的视频摘要方法,该方法使用了多模态自监督学习框架,该框架可以在不需要大规模标注数据的情况下,通过视频与文本之间的语义一致性来获取视频的语义表示,并提出了一种渐进式摘要方法。实验表明,该方法的排名相关系数和 F 分数均优于现有视频摘要方法。
Jan, 2022
本文提出了一种基于多模态 transformer 架构的视频检索方法,该方法能够充分利用视频中的跨模态线索,并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。
Jul, 2020
该研究论文提出了一个实用的多模态视频摘要任务设置和一个数据集,用于训练和评估该任务。该任务旨在将给定视频总结为预定义数量的关键帧 - 标题对,并以可列举的格式显示,以快速把握视频内容。通过同时优化关键帧选择性能和标题质量,该任务需要仔细考虑前后关键帧和标题之间的相互依赖。为了促进这一领域的后续研究,研究人员还构建了一个数据集,并提出了一个评估框架。另外,研究人员还开发了两个基线系统并报告了它们各自的性能。
Dec, 2023
基于对人类生成的视频摘要的洞察,本论文提出了一种新的视频摘要方法,该方法利用条件建模的视角,引入多个有意义的随机变量和联合分布来刻画视频摘要的关键组成部分,并利用辅助分布改进模型的训练。设计了条件注意力模块来减轻多模态输入可能导致的性能下降,该方法融合了以上创新设计选择,旨在缩小人工生成和机器生成视频摘要之间的差距。大量实验证明该方法优于现有方法,并在常用视频摘要数据集上实现了最先进的性能。
Nov, 2023
本文提出了通过结合多种特征源进行特征融合的视频摘要算法,该算法在两个基准测试数据集 TVSum 和 SumMe 上取得了最新的研究结果,并对以往的研究方法进行了评估,同时进行误差分析以找出导致分类错误的因素。
May, 2021
本文提出了一种无监督的视频多维摘要的方法,使用新颖的多样性感知稀疏优化方法探索了视频之间的互补性,提出了一个能够全面描述整个视频集合的多角度摘要,并且在新的 Tour20 数据集和其他多视图数据集上表现优异,并超越了目前最先进的方法。
Jun, 2017