学习重新匹配不匹配的配对以实现鲁棒的跨模态检索
提出了一种基于小批量学习匹配 (m-LTM) 框架的音频 - 文本检索方法,包括使用小批量子采样和马氏增强的地面度量系列以及使用部分最优传输来应对训练数据中的错位数据对。在多个数据集上的实验证明,该方法能够学习丰富、表达力强的联合嵌入空间,并取得了 SOTA 性能,同时能够弥补音频和文本嵌入之间的模态差距,在 ESC-50 数据集的零样本声音事件检测任务中超越了三元组和对比损失方法。值得注意的是,在音频数据集 AudioCaps 上,在训练数据中的噪声比例变化时,采用部分最优传输的 m-LTM 策略表现出比对比损失更大的噪声容忍度。
May, 2024
通过借鉴因果推断中的潜在结果与多模态观察中的潜在视角的类比,本研究提出了一种方法来解决多模态表示学习中异质模态样本的对齐问题。该方法假设我们通过实验处理来收集样本,并使用此来估计每个模态的倾向得分,从而定义了样本之间的距离。实验结果表明,使用最优传输匹配技术相较于现有先进对齐方法在综合多模态设置和 NeurIPS 多模态单细胞整合挑战中的真实数据中能够显著提高对齐效果。
Apr, 2024
基于最优传输的鲁棒跨模态检索框架(UOT-RCL)通过语义对齐和关系对齐两个组件,有效处理嘈杂标签并提高对噪声的鲁棒性,在三个广泛使用的跨模态检索数据集上超过了当前最先进方法。
Mar, 2024
通过引入一种名为自我加强误差抑制(SREM)的新型噪声对应关系学习框架,通过将样本匹配视为批处理中的分类任务,我们生成给定样本的分类 logits,通过能量不确定性优化样本筛选,并使用交换分类熵估计所选干净样本的模型灵敏度,从而改善交叉模态检索的准确性和稳定性。同时,我们提出了交叉模态偏向性互补学习,以利用在难负例训练中被忽视的负匹配,进一步提高模型的优化稳定性和抑制自我加强错误。在具有挑战性的基准测试中进行的广泛实验证实了 SREM 的有效性和高效性。
Dec, 2023
本文介绍了一种新的方法 OTMatch,通过使用最优输运损失函数,利用类别之间的语义关系,提高半监督学习的性能。与现有最先进的方法 FreeMatch 相比,在 CIFAR-10、STL-10 和 ImageNet 数据集上分别实现了 3.18%、3.46% 和 1.28% 的错误率降低,证明了我们方法在半监督学习中利用语义关系提升学习性能的有效性和优越性。
Oct, 2023
本文介绍一种名为 MM-Align 的新方法,利用最优传输理论中的对齐动力学学习模块和去噪训练算法,针对缺失多模态数据进行推断。通过在覆盖两个多模态任务的三个数据集上进行全面实验,结果表明我们的方法可以在各种缺失条件下执行更精确和更快的推断,并减轻过度拟合问题。
Oct, 2022
本文提出了一种名为交叉模态相似性转移的方法,以无监督的方式学习和保持不成对但语义上相似的数据项目之间的联系,并在类别和对排序检索任务中表现出了优于现有技术的结果。
Apr, 2019
本文提出了 CDMLMR 方法,该方法以多任务正则化的方式融合四元组排名损失和半监督对比损失,用于建模跨模态语义相似性;与现有方法相比,该方法不仅利用了相似性排名信息,还利用了未标记的跨模态数据,从而提高了跨模态检索准确性。
Mar, 2017
通过维护匹配对特征的记忆库,我们提出了一种称为 REPAIR 的广义框架,利用记忆库中的特征计算两个模态的距离并使用这两组距离的秩相关性估计目标对的软对应标签。对于完全不匹配的对,REPAIR 搜索记忆库以替换某个模态的一个特征,而不是直接使用原始对或仅丢弃不匹配的对。我们在 Flickr30K、MSCOCO 和 CC152K 三个跨模态数据集上进行了实验,证明了我们的 REPAIR 在合成和现实世界的噪声下的有效性和鲁棒性。
Mar, 2024