CVPRNov, 2022
VoP: 跨模态检索的文本 - 视频协同提示调整
VoP: Text-Video Co-operative Prompt Tuning for Cross-Modal Retrieval
Siteng Huang, Biao Gong, Yulin Pan, Jianwen Jiang, Yiliang Lv...
TL;DR本文提出 VoP 框架,结合视频和文本提示来提高文本 - 视频检索任务的效率和性能,相比使用 full fine-tuning 更加高效,在 5 个文本 - 视频检索基准上平均能够获得 1.4% 的 R@1 增益,并且仅需要 6 倍于 full fine-tuning 的可训练参数