Sep, 2021

通过多流语料库对齐和双 Softmax 损失来改进视频文本检索

TL;DR本文提出一种基于多流语料库对齐网络和双softmax损失函数的方法(CAMoE和DSL),以解决CLIP模型在视频和文本结构和内容异构性方面过拟合和检索效率相对较差的问题,并在各种基准测试中取得了最先进的成果。