学习重新匹配不匹配的配对以实现鲁棒的跨模态检索

CVPRMar, 2024

学习重新匹配不匹配的配对以实现鲁棒的跨模态检索

Learning to Rematch Mismatched Pairs for Robust Cross-Modal Retrieval

Haochen Han, Qinghua Zheng, Guang Dai, Minnan Luo, Jingdong Wang

TL;DR通过最佳传输方法和重新配对，本研究提出了一种处理来自互联网上收集的异构数据的实用框架，该框架在已有模型的基础上显著提高了鲁棒性。

Abstract

Collecting well-matched multimedia datasets is crucial for training cross-modal retrieval models. However, in real-world scenarios, massive multimodal data are harvested from the Internet, which inevitably contai

multimedia datasets cross-modal retrieval partially mismatched pairs optimal transport rematching

发现论文，激发创造

以交通视角再审视深度语音文本检索

提出了一种基于小批量学习匹配 (m-LTM) 框架的音频 - 文本检索方法，包括使用小批量子采样和马氏增强的地面度量系列以及使用部分最优传输来应对训练数据中的错位数据对。在多个数据集上的实验证明，该方法能够学习丰富、表达力强的联合嵌入空间，并取得了 SOTA 性能，同时能够弥补音频和文本嵌入之间的模态差距，在 ESC-50 数据集的零样本声音事件检测任务中超越了三元组和对比损失方法。值得注意的是，在音频数据集 AudioCaps 上，在训练数据中的噪声比例变化时，采用部分最优传输的 m-LTM 策略表现出比对比损失更大的噪声容忍度。

May, 2024

无配对多模态数据的倾向得分匹配

通过借鉴因果推断中的潜在结果与多模态观察中的潜在视角的类比，本研究提出了一种方法来解决多模态表示学习中异质模态样本的对齐问题。该方法假设我们通过实验处理来收集样本，并使用此来估计每个模态的倾向得分，从而定义了样本之间的距离。实验结果表明，使用最优传输匹配技术相较于现有先进对齐方法在综合多模态设置和 NeurIPS 多模态单细胞整合挑战中的真实数据中能够显著提高对齐效果。

Apr, 2024

无噪声标签的交叉模态检索的统一最优传输框架

基于最优传输的鲁棒跨模态检索框架（UOT-RCL）通过语义对齐和关系对齐两个组件，有效处理嘈杂标签并提高对噪声的鲁棒性，在三个广泛使用的跨模态检索数据集上超过了当前最先进方法。

Mar, 2024

通过自我加强误差缓解的噪声对应学习

通过引入一种名为自我加强误差抑制（SREM）的新型噪声对应关系学习框架，通过将样本匹配视为批处理中的分类任务，我们生成给定样本的分类 logits，通过能量不确定性优化样本筛选，并使用交换分类熵估计所选干净样本的模型灵敏度，从而改善交叉模态检索的准确性和稳定性。同时，我们提出了交叉模态偏向性互补学习，以利用在难负例训练中被忽视的负匹配，进一步提高模型的优化稳定性和抑制自我加强错误。在具有挑战性的基准测试中进行的广泛实验证实了 SREM 的有效性和高效性。

Dec, 2023

OTMatch：以最优传输方式改进半监督学习

本文介绍了一种新的方法 OTMatch，通过使用最优输运损失函数，利用类别之间的语义关系，提高半监督学习的性能。与现有最先进的方法 FreeMatch 相比，在 CIFAR-10、STL-10 和 ImageNet 数据集上分别实现了 3.18%、3.46% 和 1.28% 的错误率降低，证明了我们方法在半监督学习中利用语义关系提升学习性能的有效性和优越性。

Oct, 2023

MM-Align: 基于最优输运的对齐动力学学习，以实现快速准确推断缺失模态序列

本文介绍一种名为 MM-Align 的新方法，利用最优传输理论中的对齐动力学学习模块和去噪训练算法，针对缺失多模态数据进行推断。通过在覆盖两个多模态任务的三个数据集上进行全面实验，结果表明我们的方法可以在各种缺失条件下执行更精确和更快的推断，并减轻过度拟合问题。

Oct, 2022

若得之则与之，语义对应学习无对标图像

通过无标签对训练的简单而有效的方法，扩充了数据集的数量和多样性，并在基于语义的对应基准测试中取得了优于里程碑基线和最先进方法的性能提升。

Nov, 2023

通过学习和转移单模相似度实现对抗性跨模检索

本文提出了一种名为交叉模态相似性转移的方法，以无监督的方式学习和保持不成对但语义上相似的数据项目之间的联系，并在类别和对排序检索任务中表现出了优于现有技术的结果。

Apr, 2019

跨模态多任务正则化深度度量学习

本文提出了 CDMLMR 方法，该方法以多任务正则化的方式融合四元组排名损失和半监督对比损失，用于建模跨模态语义相似性；与现有方法相比，该方法不仅利用了相似性排名信息，还利用了未标记的跨模态数据，从而提高了跨模态检索准确性。

Mar, 2017

REPAIR：用记忆对无噪声对应进行排序相关和噪声对半替换

通过维护匹配对特征的记忆库，我们提出了一种称为 REPAIR 的广义框架，利用记忆库中的特征计算两个模态的距离并使用这两组距离的秩相关性估计目标对的软对应标签。对于完全不匹配的对，REPAIR 搜索记忆库以替换某个模态的一个特征，而不是直接使用原始对或仅丢弃不匹配的对。我们在 Flickr30K、MSCOCO 和 CC152K 三个跨模态数据集上进行了实验，证明了我们的 REPAIR 在合成和现实世界的噪声下的有效性和鲁棒性。

Mar, 2024