Jul, 2023

SAS 视频 QA:自适应采样优化视频问答

TL;DR提出了两种帧采样策略,即最主导帧(MDF)和最隐含帧(MIF),用于最大限度地保留对给定问题最重要的帧,验证实验结果表明这些策略能够提高图像 - 文本预训练模型的性能。