一种挑战性的多模态视频摘要：从视频中同时提取和生成关键帧 - 标题对

Dec, 2023

一种挑战性的多模态视频摘要：从视频中同时提取和生成关键帧 - 标题对

A Challenging Multimodal Video Summary: Simultaneously Extracting and Generating Keyframe-Caption Pairs from Video

Keito Kudo, Haruki Nagasawa, Jun Suzuki, Nobuyuki Shimizu

TL;DR该研究论文提出了一个实用的多模态视频摘要任务设置和一个数据集，用于训练和评估该任务。该任务旨在将给定视频总结为预定义数量的关键帧 - 标题对，并以可列举的格式显示，以快速把握视频内容。通过同时优化关键帧选择性能和标题质量，该任务需要仔细考虑前后关键帧和标题之间的相互依赖。为了促进这一领域的后续研究，研究人员还构建了一个数据集，并提出了一个评估框架。另外，研究人员还开发了两个基线系统并报告了它们各自的性能。

Abstract

This paper proposes a practical multimodal video summarization task setting and a dataset to train and evaluate the task. The target task

multimodal video summarization task setting dataset keyframe-caption pairs evaluation framework

发现论文，激发创造

包含视频的文档的多模式摘要

本文提出了一种基于文档和相关视频的新型多模态摘要任务，并构建了一个基于 bi-hop attention 和改进的 late fusion 机制的双流摘要模型，旨在同时处理文本和视频摘要。实验结果表明，该模型有利于多模态摘要且优于现有方法，同时构建了一个新的文档和视频数据集作为未来研究的资源。

Sep, 2020

基于多模态自监督学习的渐进式视频摘要技术

本文介绍了一种基于深度神经网络的视频摘要方法，该方法使用了多模态自监督学习框架，该框架可以在不需要大规模标注数据的情况下，通过视频与文本之间的语义一致性来获取视频的语义表示，并提出了一种渐进式摘要方法。实验表明，该方法的排名相关系数和 F 分数均优于现有视频摘要方法。

Jan, 2022

超越字幕到叙事：视频多句子字幕

本研究提出了一种视频片段分割、多帧生成多个盛传、并采用自然语言技术将其连接成故事式视频字幕的方法，实现丰富内容的视频字幕生成，结果表明该方法不需要显式输入视频级别特征即可提供丰富内容，与最新技术方法相同。

May, 2016

VideoXum: 视频的跨模态视觉和文本摘要

我们提出了一个新的联合视频和文本摘要任务，旨在生成一个缩短的视频剪辑和相应的文本摘要，我们通过构建一个大规模的人类注释数据集 - VideXum 来解决此问题，并使用新的度量标准 VT-CLIPScore 来评估跨模态摘要的语义一致性。我们提出的 VTSUM-BILP 模型在此任务上取得了有希望的性能，并为未来研究建立了基准。

Mar, 2023

使用视频和蕴含生成的多任务视频字幕生成

通过多任务学习模型，结合无监督视频预测和语言蕴涵生成任务，共享参数学习提取更丰富的视频编码器表示和更好的视频 - 标题解码器表示，显著提高视频字幕生成的性能，达到了多个标准数据集的最新水平。

Apr, 2017

视频字幕及其应用的综合方法

本研究通过关键帧识别和允许用户平衡速度和准确率的设计，使用深度学习算法对长视频进行编码，提高速度并减少计算量，以实现视频字幕深度学习应用。

Jan, 2022

增强上下文感知的视频摘要

视频摘要是一个至关重要的研究领域，旨在从当今海量视频内容中高效浏览和检索相关信息。尽管视频摘要的重要性，缺乏多样化和有代表性的数据集阻碍了算法的全面评估和基准测试。为了克服数据稀缺的挑战并改进评估，我们提出了一种利用视频数据结构和信息生成信息摘要的无监督方法。此外，我们还引入了一种专门用于视频摘要的创新评估流程。实验结果表明，我们的无需训练的框架优于现有的无监督方法，并与最先进的监督方法取得竞争性结果。

Apr, 2024

视频检索的多模态 Transformer

本文提出了一种基于多模态 transformer 架构的视频检索方法，该方法能够充分利用视频中的跨模态线索，并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。

Jul, 2020

可解释的视听视频字幕生成尝试

本论文介绍了一个多模态卷积神经网络视频字幕框架，通过引入模态感知模块，探索了视听交互对视频理解的影响，并证明该可解释模型在情况选择时取得了可比较的性能。

Dec, 2018

综合视频理解：基于内容的视频推荐器设计的视频摘要

该论文将视频摘要提出了内容为基础的推荐问题，使用可扩展的深度神经网络在显式建模的片段和视频上进行预测，通过场景和动作识别来寻找视频理解任务不同方面之间的相关性，同时讨论音频和视觉特征在总结任务中的影响，并通过数据增强和多任务学习来防止模型过度拟合。该模型最终在 ICCV 2019 CoView Workshop Challenge Track 中获得第一名。

Oct, 2019