Sep, 2021

通过多流语料库对齐和双 Softmax 损失来改进视频文本检索

TL;DR本文提出一种基于多流语料库对齐网络和双 softmax 损失函数的方法(CAMoE 和 DSL),以解决 CLIP 模型在视频和文本结构和内容异构性方面过拟合和检索效率相对较差的问题,并在各种基准测试中取得了最先进的成果。