Jul, 2022

基于进化伪标记的零样本视频字幕生成

TL;DR本文提出了一种零样本视频字幕生成方法,采用了冻结的 GPT-2 语言模型和 CLIP 图像 - 文本匹配模型,并通过生成过程中的优化方法生成了连贯、具有广泛实际知识的视频字幕。