HAL: 通过缓解视觉语义中心改进文本图像匹配
通过使用 Sentence-BERT 创建的嵌入表征语义空间的结构,我们发现其中普遍存在的高维度问题,即 hubness 会导致不对称的邻居关系,而减小 hubness 可以提供更好的文本语义表征。
Nov, 2023
本文提出一种共识感知的视觉 - 语义嵌入模型(CVSE),以将共识信息,即图像文字的基础知识,融入到图像 - 文本匹配中,并通过构建概念相关性图来实现共识信息的利用,以及通过实例级表示为两种模态学习图像和文本之间的关联和对准。实验表明,相较于先进的方法,利用共识信息对构建更有意义的视觉 - 语义嵌入具有优越的性能,特别是在双向图像和文本检索任务上。
Jul, 2020
该研究提出了一种简单的方法来解决 zero-shot 任务中邻居向量被强权向心性卡住的问题,即通过考虑多个向量中潜在邻居的相似度分布来校正错误结果。结果表明,这种校正方法在跨语言、图像标记和图像检索等领域的 zero-shot 任务中均获得了稳定的改善。
Dec, 2014
本文提出在文本图像匹配中使用新的训练和推导技术,首先通过实验证明了 sum loss 和 max-margin loss 存在的限制,提出了一种新的 kNN-margin loss。其次,在推导时提出一种 Inverted Softmax 和 Cross-modal Local Scaling 的技术,以减轻高维嵌入空间中的 hubness 问题,有效提升了所有指标的表现和得分。
Jun, 2019
我们提出了一种 Uncertainty-Aware Multi-View Visual Semantic Embedding (UAMVSE) 框架,通过多种视图 - 文本匹配将整体图像 - 文本匹配分解,引入了一种不确定性感知损失函数(UALoss)来自适应地建模每个视图 - 文本对应关系的不确定性,不同的权重指导模型关注不同的语义信息,增强了模型理解图像和文本的对应关系的能力。我们还设计了一种优化的图像 - 文本匹配策略,通过标准化相似度矩阵来提高模型性能。在 Flicker30k 和 MS-COCO 数据集上的实验结果表明,UAMVSE 优于最先进的模型。
Sep, 2023
本篇研究提出了一种方法,使用特定的 loss 函数,在保持图像和文本子空间内的语义连贯性的同时鼓励它们之间的语义协同,并改进了基线模型,以实现跨模态检索。
Jul, 2020
本文提出了一种语义优化方法,称为视觉语义损失(VSL),以辅助模型专注于图像的主要内容,通过对图像的注释文本的利用,减少次要内容的负面影响,通过两个基准数据集(MSCOCO 和 Flickr30K)的大量实验,证明了该方法的卓越性能。
Apr, 2023
该研究旨在解决将文本的分布式表示与视觉域进行关联的问题。通过对视觉语义嵌入的深入研究,提出了基于语言规则和 WordNet 知识库的对抗样本技术,通过在 MS-COCO 图像字幕数据集上的评估取得了良好效果。
Jun, 2018
利用视觉 - 语义嵌入的新技术进行跨模态检索,通过采用 hard negative mining,结构化预测中的 hard negatives 和排名损失函数的结合,对多模态嵌入的常见损失函数进行简单改变,在微调和使用增强数据的情况下获得了显著的检索性能提升。作者在 MS-COCO 和 Flickr30K 数据集中展示了他们的方法 VSE ++,并使用消融研究和与现有方法的比较。在 MS-COCO 的图像和标题检索中,他们的方法在 R@1 上比现有技术方法分别提高了 11.3%和 8.8%。
Jul, 2017
本研究提出了一种后处理解决方案来解决跨模态检索中的枢纽问题,该问题是指频繁地检索到少数库数据点,从而导致检索性能下降。我们在理论上首先证明了结合库数据和查询数据来解决枢纽问题的必要性,因为枢纽总是与库数据和查询数据具有高相似性。然后,基于我们的理论结果,我们提出了一种新的框架双库标准化(DBNorm)。最后,我们在多样的语言环境基准测试中进行了广泛的实验结果展示,包括文本 - 图像、文本 - 视频和文本 - 音频,证明了我们的方法在解决枢纽问题并提升检索性能方面的卓越表现。
Oct, 2023