CLIP-It!基于语言指导的视频摘要
通过使用大型语言模型作为引导,本文提出了一种新颖的自监督视频摘要框架,通过生成视频帧的字幕,并将其合成为文本摘要,衡量帧字幕和文本摘要之间的语义距离,最终选择与文本摘要相似的帧来生成摘要视频。该方法在视频摘要任务中取得了有竞争力的结果,并为视频摘要领域开辟了新的道路。
May, 2024
我们提出了一个新的联合视频和文本摘要任务,旨在生成一个缩短的视频剪辑和相应的文本摘要,我们通过构建一个大规模的人类注释数据集 - VideXum 来解决此问题,并使用新的度量标准 VT-CLIPScore 来评估跨模态摘要的语义一致性。我们提出的 VTSUM-BILP 模型在此任务上取得了有希望的性能,并为未来研究建立了基准。
Mar, 2023
本文介绍 IntentVizor,一种基于多模态查询的交互式视频摘要框架。通过使用我们所提出的一系列意图,我们设计了一个新型交互式视觉分析界面,并使用 GSE-GCN 来提高视频理解的摘要质量。我们针对两个基准数据集进行了实验,并与现有方法进行了比较,验证了该框架的有效性。
Sep, 2021
本文使用伪摘要的方法,提出了一种结合上下文感知时态视频编码器和片段评分转换器的教学视频摘要网络,并将其应用于 WikiHow Summaries 数据集。结果表明,该模型在教学视频摘要方面显著优于各基准和最先进的视频摘要模型。
Aug, 2022
通过仅使用通过零样本方法获取的文本标题,我们提出了一种高效的纯文本视频摘要方法,能够以高数据效率实现有竞争力的准确性。我们通过训练语言转换模型并摒弃图像表示来进行视频摘要,从而允许我们在代表性文本向量之间进行筛选并压缩序列。我们的方法能够使自然语言解释能力易于人类理解,以及对视频的文本摘要。调查了模态性和数据压缩的消融研究表明,仅利用文本模态有效地减少了输入的数据处理量,同时保持了可比较的结果。
Sep, 2023
探究语言模型在长时间多媒体叙述中的零 - shot 推理能力,提出了一种用于叙述视频问答的框架 Long Story Short,通过首先将视频的叙述进行简化处理,然后寻找与问题相关的视频部分,并运用 CLIPCheck 来增强视觉匹配,实现了在长视频问答中优于最先进有监督模型的表现,突显了零 - shot 问题回答在长视频中的潜力。
Nov, 2023
该论文将视频摘要提出了内容为基础的推荐问题,使用可扩展的深度神经网络在显式建模的片段和视频上进行预测,通过场景和动作识别来寻找视频理解任务不同方面之间的相关性,同时讨论音频和视觉特征在总结任务中的影响,并通过数据增强和多任务学习来防止模型过度拟合。该模型最终在 ICCV 2019 CoView Workshop Challenge Track 中获得第一名。
Oct, 2019
本文提出一种基于监督学习的、端到端深度学习的方法,用于生成与文本查询相关联的视频摘要。该方法提出了包括视频摘要控制器、视频摘要生成器和视频摘要输出模块在内的一整套系统,并介绍了一个包含帧级别相关性评分标签的数据集。实验结果表明,文本查询可以控制视频摘要,且可提高模型的性能。
Apr, 2020
基于对人类生成的视频摘要的洞察,本论文提出了一种新的视频摘要方法,该方法利用条件建模的视角,引入多个有意义的随机变量和联合分布来刻画视频摘要的关键组成部分,并利用辅助分布改进模型的训练。设计了条件注意力模块来减轻多模态输入可能导致的性能下降,该方法融合了以上创新设计选择,旨在缩小人工生成和机器生成视频摘要之间的差距。大量实验证明该方法优于现有方法,并在常用视频摘要数据集上实现了最先进的性能。
Nov, 2023