Jan, 2022

基于多模态自监督学习的渐进式视频摘要技术

TL;DR本文介绍了一种基于深度神经网络的视频摘要方法,该方法使用了多模态自监督学习框架,该框架可以在不需要大规模标注数据的情况下,通过视频与文本之间的语义一致性来获取视频的语义表示,并提出了一种渐进式摘要方法。实验表明,该方法的排名相关系数和 F 分数均优于现有视频摘要方法。