Oct, 2023

GMMFormer:基于高斯混合模型的 Transformer 用于高效部分相关视频检索

TL;DRPRVR 中,clip 建模对于捕捉文本和视频之间的部分关系至关重要。本文提出了 GMMFormer,一种基于高斯混合模型的 Transformer,通过隐式建模来解决 PRVR 方法的效率问题。此外,本文还提出查询多样性损失来区分相关的文本查询,使嵌入空间更加密集且含有更多语义信息。