CVPRApr, 2024

流式视频密集字幕

TL;DR提出了一种用于密集视频字幕生成的理想模型,能够处理长时间视频输入、预测丰富详细的文本描述,并且能在整个视频处理完成之前生成输出,通过引入聚类处理令其能够处理任意长的视频,并设计了一种流式解码算法使模型能够提前进行预测,实验证明了该模型在三个密集视频字幕生成基准数据集上优于现有的最先进模型。