May, 2023
利用解耦概念化和集合对齐进行文本-视频检索
Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set
Alignment
TL;DR本研究提出了一种名为Disentangled Conceptualization and Set-to-set Alignment (DiCoSA) 的跨模态任务解决方法,可以将视觉实体与自然语言描述对齐,采用多个与语义概念相关的潜在因素来划分粗特征进行概念化,使用自适应的池化方法来聚合语义概念以解决部分匹配,并通过在少量维度上独立编码概念确保细粒度交互,从而实现高效和精细的交互。在多个数据集上的实验表明,该方法优于现有的最先进方法。