超越框架:用户定义长度的单个和多个视频摘要方法
我们提出了一个新的联合视频和文本摘要任务,旨在生成一个缩短的视频剪辑和相应的文本摘要,我们通过构建一个大规模的人类注释数据集 - VideXum 来解决此问题,并使用新的度量标准 VT-CLIPScore 来评估跨模态摘要的语义一致性。我们提出的 VTSUM-BILP 模型在此任务上取得了有希望的性能,并为未来研究建立了基准。
Mar, 2023
本文提出了一种基于文档和相关视频的新型多模态摘要任务,并构建了一个基于 bi-hop attention 和改进的 late fusion 机制的双流摘要模型,旨在同时处理文本和视频摘要。实验结果表明,该模型有利于多模态摘要且优于现有方法,同时构建了一个新的文档和视频数据集作为未来研究的资源。
Sep, 2020
该论文将视频摘要提出了内容为基础的推荐问题,使用可扩展的深度神经网络在显式建模的片段和视频上进行预测,通过场景和动作识别来寻找视频理解任务不同方面之间的相关性,同时讨论音频和视觉特征在总结任务中的影响,并通过数据增强和多任务学习来防止模型过度拟合。该模型最终在 ICCV 2019 CoView Workshop Challenge Track 中获得第一名。
Oct, 2019
基于对人类生成的视频摘要的洞察,本论文提出了一种新的视频摘要方法,该方法利用条件建模的视角,引入多个有意义的随机变量和联合分布来刻画视频摘要的关键组成部分,并利用辅助分布改进模型的训练。设计了条件注意力模块来减轻多模态输入可能导致的性能下降,该方法融合了以上创新设计选择,旨在缩小人工生成和机器生成视频摘要之间的差距。大量实验证明该方法优于现有方法,并在常用视频摘要数据集上实现了最先进的性能。
Nov, 2023
视频摘要是一个至关重要的研究领域,旨在从当今海量视频内容中高效浏览和检索相关信息。尽管视频摘要的重要性,缺乏多样化和有代表性的数据集阻碍了算法的全面评估和基准测试。为了克服数据稀缺的挑战并改进评估,我们提出了一种利用视频数据结构和信息生成信息摘要的无监督方法。此外,我们还引入了一种专门用于视频摘要的创新评估流程。实验结果表明,我们的无需训练的框架优于现有的无监督方法,并与最先进的监督方法取得竞争性结果。
Apr, 2024
通过使用大型语言模型作为引导,本文提出了一种新颖的自监督视频摘要框架,通过生成视频帧的字幕,并将其合成为文本摘要,衡量帧字幕和文本摘要之间的语义距离,最终选择与文本摘要相似的帧来生成摘要视频。该方法在视频摘要任务中取得了有竞争力的结果,并为视频摘要领域开辟了新的道路。
May, 2024
本文介绍了一种基于深度神经网络的视频摘要方法,该方法使用了多模态自监督学习框架,该框架可以在不需要大规模标注数据的情况下,通过视频与文本之间的语义一致性来获取视频的语义表示,并提出了一种渐进式摘要方法。实验表明,该方法的排名相关系数和 F 分数均优于现有视频摘要方法。
Jan, 2022
快速理解冗长的讲座视频对于时间有限、兴趣有限的学习者提高学习效率非常重要。为此,我们提出了 FastPerson 视频摘要方法,该方法考虑了讲座视频中的视觉和听觉信息,通过利用音频转录、屏幕上的图像和文本创建摘要视频,最大限度地减少了学习者忽视关键信息的风险。此外,它还提供了一个功能,允许学习者在视频的每个章节之间切换摘要和原始视频,使他们能够根据自己的兴趣和理解水平调节学习的节奏。我们对 40 名参与者进行了评估,验证了我们的方法在与传统视频播放方法相同的理解水平下,减少了 53% 的观看时间。
Mar, 2024
本文使用伪摘要的方法,提出了一种结合上下文感知时态视频编码器和片段评分转换器的教学视频摘要网络,并将其应用于 WikiHow Summaries 数据集。结果表明,该模型在教学视频摘要方面显著优于各基准和最先进的视频摘要模型。
Aug, 2022
本文主要研究视频摘要中的评估方法,并提出了基于视频分割的替代方法,在使用两个知名的基准数据集进行研究时,惊奇地发现随机生成的视频摘要达到了与人类生成的摘要相当甚至更好的性能表现,并且视频分割对性能指标的影响最大。
Mar, 2019