视频 CSR: 复杂视频摘要生成用于视觉 - 语言模型
在这篇论文中,我们提出了直接生成有实体感知能力的新闻视频标题的任务,并发布了一个大规模数据集 VIEWS (VIdeo NEWS) 以支持该任务的研究。同时,我们还提出了一种方法,通过从外部世界知识中检索到的上下文来增强视频中的视觉信息,以生成具有实体感知能力的标题。通过在三个视频字幕模型上的广泛实验和见解,我们证明了我们方法的有效性,并且展示了我们的方法能够推广到现有的新闻图像字幕数据集。相信我们为这一具有挑战性的任务奠定了坚实的研究基础。
Dec, 2023
通过自动数据集创建方法,我们提出了一个可扩展的 Composed Image Retrieval(CoIR)任务,使用由视频标题对生成的三元组,扩展任务范围到 Composed Video Retrieval(CoVR)。通过在庞大的数据库中挖掘具有相似标题的配对视频,并利用大型语言模型生成相应的修改文本,我们构建了 WebVid-CoVR 数据集,其中包含 1.6 百万个三元组。实验证明,在我们的数据集上训练 CoVR 模型可以有效迁移到 CoIR,提高了 CIRR 和 FashionIQ 基准测试中的最新性能。
Aug, 2023
我们提出了一个新的联合视频和文本摘要任务,旨在生成一个缩短的视频剪辑和相应的文本摘要,我们通过构建一个大规模的人类注释数据集 - VideXum 来解决此问题,并使用新的度量标准 VT-CLIPScore 来评估跨模态摘要的语义一致性。我们提出的 VTSUM-BILP 模型在此任务上取得了有希望的性能,并为未来研究建立了基准。
Mar, 2023
通过自动增强语言 - 视频数据集和多方位视频字幕生成方法,提高语言 - 视频表示能力,并通过多模态检索模型验证其有效性。
Jun, 2024
通过对长视频生成多样的合成标题,使用大型语言模型评估长视频检索系统的能力,并提出轻量级微调方法(基于对不同标题中信息层级的差异进行对比损失学习),在下游的段落 - 视频检索任务以及使用合成数据计算的各种长视频检索度量上均有明显提升。
Nov, 2023
该研究论文提出了一个实用的多模态视频摘要任务设置和一个数据集,用于训练和评估该任务。该任务旨在将给定视频总结为预定义数量的关键帧 - 标题对,并以可列举的格式显示,以快速把握视频内容。通过同时优化关键帧选择性能和标题质量,该任务需要仔细考虑前后关键帧和标题之间的相互依赖。为了促进这一领域的后续研究,研究人员还构建了一个数据集,并提出了一个评估框架。另外,研究人员还开发了两个基线系统并报告了它们各自的性能。
Dec, 2023
本文提出 VideoSET,一种通过文本评估视频摘要的方法,该方法可以评估视频摘要能否保留其原始视频中包含的语义信息。我们观察到语义最容易用文字来表达,因此开发了一种基于文本的评估方法。通过生成视频摘要的文本表示,然后使用基于 NLP 的度量方法来测量其与人类编写的基准文本摘要的语义距离。我们展示了我们的技术与基于像素距离的度量方法相比具有更高的人类判断一致性。我们还发布了一些公开可用的视频数据集的文本注释和基准文本摘要,供计算机视觉社区使用。
Jun, 2014
视频摘要是一个至关重要的研究领域,旨在从当今海量视频内容中高效浏览和检索相关信息。尽管视频摘要的重要性,缺乏多样化和有代表性的数据集阻碍了算法的全面评估和基准测试。为了克服数据稀缺的挑战并改进评估,我们提出了一种利用视频数据结构和信息生成信息摘要的无监督方法。此外,我们还引入了一种专门用于视频摘要的创新评估流程。实验结果表明,我们的无需训练的框架优于现有的无监督方法,并与最先进的监督方法取得竞争性结果。
Apr, 2024
提出了一种新的跨模态视频检索数据集 TextVR,它包含了八个场景领域的 10.5k 个视频和 42.2k 个查询语句,并介绍了一种统一的跨模态模型,有效地将文本和视觉语义信息融合来实现视频检索任务。该数据集和我们提出的跨模态检索方法为视频和语言研究领域提供了许多新的技术挑战和洞见。
May, 2023
通过使用大型语言模型作为引导,本文提出了一种新颖的自监督视频摘要框架,通过生成视频帧的字幕,并将其合成为文本摘要,衡量帧字幕和文本摘要之间的语义距离,最终选择与文本摘要相似的帧来生成摘要视频。该方法在视频摘要任务中取得了有竞争力的结果,并为视频摘要领域开辟了新的道路。
May, 2024