双视图课程优化输运用于跨语言跨模态检索

Sep, 2023

双视图课程优化输运用于跨语言跨模态检索

Dual-view Curricular Optimal Transport for Cross-lingual Cross-modal Retrieval

Yabing Wang, Shuhui Wang, Hao Luo, Jianfeng Dong, Fan Wang...

TL;DR通过 Dual-view Curricular Optimal Transport（DCOT）在跨语言跨模态检索中学习带有噪声的对应关系，从而解决机器翻译产生的不完美翻译问题，实验证明了该方法的有效性和鲁棒性。

Abstract

Current research on cross-modal retrieval is mostly English-oriented, as the availability of a large number of English-oriented human-labeled vision-language corpora. In order to break the limit of non-English labeled data, cross-lingual →

cross-modal retrieval cross-lingual transfer machine translation dual-view curricular optimal transport multilingual image-text datasets

发现论文，激发创造

CL2CM: 通过跨语言知识转移提升跨语言跨模态检索

跨语言跨模态检索致力于在不使用任何标注的视觉 - 目标语言数据对的情况下实现视觉和目标语言之间的对齐。本研究提出了一种名为 CL2CM 的通用框架，使用跨语言转移改善了视觉和目标语言之间的对齐，可在跨模态网络中为可靠全面的语义对应（知识）提供优势，并通过在多语言图像 - 文本数据集和视频 - 文本数据集上进行实验验证了其高潜力和有效性。

Dec, 2023

无噪声标签的交叉模态检索的统一最优传输框架

基于最优传输的鲁棒跨模态检索框架（UOT-RCL）通过语义对齐和关系对齐两个组件，有效处理嘈杂标签并提高对噪声的鲁棒性，在三个广泛使用的跨模态检索数据集上超过了当前最先进方法。

Mar, 2024

提升跨语言跨模态检索中的一致性：基于 1-to-K 对比学习

提出了一种简单但有效的 1 对 K 对比学习方法，平等对待每种语言，消除错误传播和优化偏差的问题，并提出了一个新的评估指标 Mean Rank Variance（MRV），来反映每个实例内不同语言之间的排名不一致。在四个 CCR 数据集上进行的广泛实验表明，我们的方法在小规模预训练数据上提高了召回率和 MRV，并取得了新的最新成果。

Jun, 2024

CoVLR：协调跨模态一致性和内部模态结构的视觉语言检索

本论文提出了一种名为 Coordinated Vision Language Retrieval (CoVLR) 的新方法，利用 meta-optimization 来协调交叉模态对齐和单模态群集维护，从而同时确保交叉模态一致性和单模态结构，实验结果表明 CoVLR 方法能够提高单模态检索准确性，同时保留跨模态检索能力。

Apr, 2023

UC2: 通用跨语言跨模态视觉语言预训练

UC2 是第一个基于机器翻译增强的框架，用于跨语言跨模态表示学习。我们扩充了现有的只有英语的数据集，通过机器翻译引入了其他语言的图像标题，然后将标准的 Masked Language Modeling 和 Image-Text Matching 训练目标扩展到多语言环境，通过共享视觉上下文（即使用图像作为枢纽）来捕获不同语言之间的对齐。最终我们提出了两个新的预训练任务，Masked Region-to-Token Modeling（MRTM）和 Visual Translation Language Modeling（VTLM），以加快图像和所有感兴趣语言的联合嵌入空间的学习。在多语言图像文本检索和多语言视觉问答基准上的评估表明，我们的提议框架在各种非英语基准上实现了新的最先进状态，并在英语任务上保持与单语预训练模型相当的性能。

Apr, 2021

COTS：协作的双流视觉 - 语言预训练模型用于跨模态检索

我们提出了一种协同双流视觉 - 语言预训练模型（COTS），通过增强跨模态交互实现图像 - 文本检索，包括实例级别对齐、标记级别交互和任务级别交互，实验结果显示该模型在所有双流方法中表现最佳，与最新的单流方法相当（但推理速度快了 10,800 倍），且适用于文本 - 视频检索，在广泛使用的 MSR-VTT 数据集上取得了新的最佳结果。

Apr, 2022

C2KD: 跨语言跨模态知识蒸馏在多语言文本 - 视频检索中的应用

本研究提出了一种跨语言跨模态知识蒸馏的方法，使用跨语言文本数据训练学生模型，以匹配用英语文本数据训练的教师模型的跨模态预测。通过引入新的多语言视频数据集 Multi-youcook2 验证了该方法的有效性。

Oct, 2022

通过最优传输压缩提升低资源语言的跨语言信息检索

本文提出了 OPTICAL：优化传输蒸馏用于低资源跨语种信息检索，该方法利用优化传输问题将知识从双语数据中分离出来，只需要少量数据就可以在低资源语种上显著提高效果。

Jan, 2023

混合传递网络实现跨模态共同表示学习

该论文提出了 Cross-modal Hybrid Transfer Network (CHTN)，包含两个子网络：Modal-sharing transfer subnetwork 和 Layer-sharing correlation subnetwork，用于在不同模态之间进行知识迁移和跨模态检索。

Jun, 2017

利用最优传输距离进行知识蒸馏，提高神经跨语言摘要生成的效果

本文提出了基于知识蒸馏的跨语言摘要框架，通过 Sinkhorn Divergence 实现了师生之间的知识转移，并在跨语言摘要数据集上证明了该方法的高效性。

Dec, 2021