Jul, 2023

联合优化文本和时刻的零样本密集视频字幕生成

TL;DRZeroTA 是一种用零样本方式进行密集视频字幕生成的新方法,它通过与语言生成模型和视觉语言模型的联合优化来定位和描述输入视频中的事件。