CVPRNov, 2022

VoP: 跨模态检索的文本 - 视频协同提示调整

TL;DR本文提出 VoP 框架,结合视频和文本提示来提高文本 - 视频检索任务的效率和性能,相比使用 full fine-tuning 更加高效,在 5 个文本 - 视频检索基准上平均能够获得 1.4% 的 R@1 增益,并且仅需要 6 倍于 full fine-tuning 的可训练参数