Sep, 2023

不确定性感知的多视角视觉语义嵌入

TL;DR我们提出了一种 Uncertainty-Aware Multi-View Visual Semantic Embedding (UAMVSE) 框架,通过多种视图 - 文本匹配将整体图像 - 文本匹配分解,引入了一种不确定性感知损失函数(UALoss)来自适应地建模每个视图 - 文本对应关系的不确定性,不同的权重指导模型关注不同的语义信息,增强了模型理解图像和文本的对应关系的能力。我们还设计了一种优化的图像 - 文本匹配策略,通过标准化相似度矩阵来提高模型性能。在 Flicker30k 和 MS-COCO 数据集上的实验结果表明,UAMVSE 优于最先进的模型。