ACLMay, 2024

基于稀疏相关适配器的高效文本 - 视频检索

TL;DR使用一种称为 RAP 的稀疏且相关的 AdaPter 模型,通过在少数参数化层上进行预训练模型的微调,以提供高效的文本视频检索。RAP 配备了两个必要特征:时间稀疏性和相关性建模。通过引入低秩调制模块和异步自注意力机制,RAP 能够在四个文本视频检索数据集上表现出优越或可比较的性能。