Dec, 2023

大规模视觉语言模型学习用于高效和高性能的部分相关视频检索的超级图像

TL;DR提出一种高效和高性能的部分相关视频检索方法,通过使用超级图像、视觉编码和细调方法,实现了在ActivityNet Captions和TVR上的最佳性能。