May, 2024

利用语言引导的自监督视频摘要生成方法,考虑视频多样性的文本语义匹配

TL;DR通过使用大型语言模型作为引导,本文提出了一种新颖的自监督视频摘要框架,通过生成视频帧的字幕,并将其合成为文本摘要,衡量帧字幕和文本摘要之间的语义距离,最终选择与文本摘要相似的帧来生成摘要视频。该方法在视频摘要任务中取得了有竞争力的结果,并为视频摘要领域开辟了新的道路。