适应性离线五元组损失用于图像文本匹配
本研究提出了一种新的 False Negative Elimination(FNE)策略,通过采样选择负例来减轻图像 - 文本匹配中的错误负例问题,并在 Flickr30K 和 MS-COCO 上的实验证明了该策略的优越性。
Aug, 2023
本文提出在文本图像匹配中使用新的训练和推导技术,首先通过实验证明了 sum loss 和 max-margin loss 存在的限制,提出了一种新的 kNN-margin loss。其次,在推导时提出一种 Inverted Softmax 和 Cross-modal Local Scaling 的技术,以减轻高维嵌入空间中的 hubness 问题,有效提升了所有指标的表现和得分。
Jun, 2019
本文主要研究了三元组损失的应用,通过对三元组的空间特征进行特征分析,发现选择最难的负样本会导致失败的训练行为。为此,提出了简单的修复方法来优化损失函数,展示了使用硬负样本进行优化会产生更具可推广性的特征,从而在高内类差异数据集的图像检索结果中胜过现有技术成果。
Jul, 2020
我们提出了一种主动学习算法,用于图像 - 文本检索 (ITR),以更具成本效益地收集配对数据。通过引入一种新的评分函数来选择难以配对的图像(或文本)作为负样本,我们验证了该方法在 Flickr30K 和 MS-COCO 数据集上的有效性。
May, 2024
图像 - 文本匹配仍然是一项具有挑战性的任务,由于模态之间异构的语义多样性和三元组内不足的距离可分性。与之前的方法不同,我们旨在通过增强聚类方法中的知识转移来寻求更强大的匹配模型。具体地说,我们提出了一种全新的深度增强学习(DBL)算法,其中锚点分支首先被训练以提供对数据属性的洞察,而目标分支获取更先进的知识以开发出最佳特征和距离度量。通过实验证实,我们的 DBL 能够在图像 - 文本匹配领域的各种最新先进模型的基础上取得令人印象深刻且一致的改进,并且优于相关的普遍合作策略,例如常规蒸馏、互联学习和对应学习。此外,我们证实 DBL 可以无缝集成到它们的训练场景中,并在相同的计算成本下实现卓越性能,从而展示了我们提出的方法的灵活性和广泛适用性。我们的代码可以在此 https URL 上公开获取。
Apr, 2024
本文从互信息优化的角度研究了负样本对视觉语言预训练中交叉模态对比学习的影响,并提出了一种渐进式改进的交叉模态相似度对比学习策略,在理论指导下实现了对 (部分) 假负例样本有益和有害效应的平衡,这种方法在四个下游交叉模态任务中表现良好。
May, 2023
本文提出了一种新的系统,以区分性地嵌入图像和文本到共享的视觉 - 文本空间,通过实例损失和端到端学习的双路径卷积网络来解决图像和文本匹配问题,并在 Flickr 30k 和 MSCOCO 上达到了与最先进方法相当的准确度,同时在基于语言的人员检索中取得了很大的改进。
Nov, 2017
在基于图像标题检索的任务中,三元组损失与半硬负例已成为从头开始优化的方法的事实选择。最近度量学习的进展已经产生了比三元组损失在图像检索和特征表示等任务上效果更好的损失函数。本文通过比较两种基于图像标题检索方法上的三种损失函数来回答这个问题,结论是否定的:在基于图像标题检索的任务中,三元组损失与半硬负例仍然优于度量学习中新近引入的损失函数。我们使用一种计数方法来进行分析来获得更好的理解这些结果。
Feb, 2022
本文研究了无序图像翻译中对比学习的性能问题,提出了实例级别的负样本生成方法 NEGCUT,通过基于输入图像的生成器提出容易区分正样本的负样本,训练方式为对抗损失。此方法在三个基准数据集上显示出了明显优势。
Aug, 2021
本文讨论了利用等距逼近理论解决深度度量学习中 Triplet Loss 网络崩塌问题以及 Hard Negative Mining 的理论依据,并提出了未来避免网络崩塌的 Hard Negative Mining 方法。此理论还可拓展至其他基于欧几里得空间的度量学习方法。
Oct, 2022