多模式视频章节生成
视频章节生成、时间分割、章节标题生成、视频章节定位和在 VidChapters-7M 上的预训练能够显著改进 YouCook2 和 ViTT 基准测试中的视频语言模型绩效。
Sep, 2023
我们提出了一种自动化分章节的电视新闻节目视频的新方法,通过冻结神经网络和训练的 LSTM 网络,集成了音频和视觉线索来准确生成节目片段边界,并在 500 多个电视新闻节目视频的多样数据集上进行了评估,结果表明这种创新的融合策略达到了最新性能,较高的精度率为 82% 的 IoU。因此,这种方法显著提升了电视新闻节目档案的分析、索引和存储能力,为大规模音视频资源的高效管理和利用铺平了道路。
Mar, 2024
本文提出了一种称为 Gen-L-Video 的新方法,该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力,使其能够生成和编辑具有多个语义段的数百帧的长视频,而不需要额外的训练,从而极大地拓宽了视频扩散模型的生成和编辑能力。
May, 2023
本文提出了一种基于文档和相关视频的新型多模态摘要任务,并构建了一个基于 bi-hop attention 和改进的 late fusion 机制的双流摘要模型,旨在同时处理文本和视频摘要。实验结果表明,该模型有利于多模态摘要且优于现有方法,同时构建了一个新的文档和视频数据集作为未来研究的资源。
Sep, 2020
该研究论文提出了一个实用的多模态视频摘要任务设置和一个数据集,用于训练和评估该任务。该任务旨在将给定视频总结为预定义数量的关键帧 - 标题对,并以可列举的格式显示,以快速把握视频内容。通过同时优化关键帧选择性能和标题质量,该任务需要仔细考虑前后关键帧和标题之间的相互依赖。为了促进这一领域的后续研究,研究人员还构建了一个数据集,并提出了一个评估框架。另外,研究人员还开发了两个基线系统并报告了它们各自的性能。
Dec, 2023
提出了一种统一的多模态视频生成系统,能够处理基于文本和图像模态的多个视频生成任务,其中高自由度视频生成采用多条件交叉注意力对齐输入图像或文本的语义,低自由度视频生成引入偏置高斯噪声以更好地保留输入条件的内容,该方法在 MSR-VTT 公共学术基准中取得了最低的 Fréchet 视频距离(FVD),在人类评估中超过了当前的开源方法,并与当前的闭源方法 Gen2 持平。
Jan, 2024
为了避免手动注释,提出了利用自动交叉模态监督生成视频问答数据集的方法,通过使用问题生成变形器从语音转录中生成问题 - 答案对,然后根据视频 - 问题多模式变形器和答案变形器之间的对比损失训练处理答案的多模式变形器,生成如何 VQA69M,WebVidVQA3M 和 iVQA 等不同数据集,结果表明在多个数据集上其结果优秀。
May, 2022
利用多模态特征空间中的文本和音频嵌入指导生成模型的生成图像,进一步实现音乐视频创作,我们提出的方法需要对视频进行自动分段,同时保持时间上的一致性,与以前的方法不同,我们的方法融合了文本和音频两个模态,展示了良好的应用效果
Jan, 2022
本文介绍了一种基于深度神经网络的视频摘要方法,该方法使用了多模态自监督学习框架,该框架可以在不需要大规模标注数据的情况下,通过视频与文本之间的语义一致性来获取视频的语义表示,并提出了一种渐进式摘要方法。实验表明,该方法的排名相关系数和 F 分数均优于现有视频摘要方法。
Jan, 2022
本研究提出了一种使用自动跨模态监督和问题生成转换器生成问题和答案对的方法来生成大规模视频问答训练数据集,并提出了一种基于对比损失的训练程序来处理其多样的答案类型。通过实验证明,在 MSRVTT-QA、MSVD-QA、ActivityNet-QA 和 How2QA 等多个任务上,该方法明显优于现有技术。
Dec, 2020