May, 2024

GMMFormer v2: 一个对部分相关视频检索问题具有不确定性意识的框架

TL;DR给定一个文本查询,部分相关视频检索(PRVR)旨在检索包含相关片段的未修剪视频。为了解决缺乏片段注释以及剪辑建模和文本-剪辑对应所带来的不确定性,我们提出了一个针对PRVR的具有不确定性感知能力的GMMFormer v2框架。通过改进GMMFormer的剪辑建模和文本-剪辑匹配,我们有效地解决了语义崩塌现象,并提高了文本和片段之间的准确对应。我们在三个PRVR基准上进行了大量实验和消融研究,展示了GMMFormer v2相对于过去的最佳方法竞争者的显着改进,以及不确定性感知文本-剪辑匹配在PRVR中的多样性。