May, 2024

检索增强型零样本视频字幕生成

TL;DR该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法,通过使用多个关键模型来桥接视频和文本,并使用可学习的令牌来传递信息。在实验中,该方法在多个数据集上取得了与现有最先进方法相比的 4%至 20%的 CIDEr 主要评价指标的改进。