Nov, 2022

文本-视频检索的跨模态适配器

TL;DR提出了一种跨模态适配器(Cross-Modal Adapter)方法,对预训练模型进行参数高效微调,可在多模态模型上减少99.6%的参数、节省30%的训练时间以及共享预训练模型, 在 MSRVTT、MSVD、VATEX、ActivityNet 和 DiDeMo 数据集上实现了优异或可比的性能。