Nov, 2023

文本-视频检索中的单查询后处理的Sinkhorn变换

TL;DR基于Sinkhorn变换的新型后处理方法在多模态检索中取得了比双softmax损失更好的效果,并提出了一种新的后处理设置,不需要访问多个测试查询,可以显著提高CLIP4Clip、BLIP、X-CLIP和DRL等先进模型在多个标准文本-视频检索数据集上的结果,在整个测试集和单查询设置中均达到了新的最先进水平。