Dec, 2023

WAVER: 通过开放词汇知识提炼视觉语言模型实现写作风格无关的视频检索

TL;DRWAVER 是一种用于处理文本 - 视频检索任务中的写作风格变化的交叉领域知识蒸馏机制,通过利用预训练的视觉语言模型中的开放词汇属性,达到从教师模型向视觉学生模型转移文本知识的目的,并在四个标准基准数据集上的实证研究中取得了最先进的表现。