双视图课程优化输运用于跨语言跨模态检索
跨语言跨模态检索致力于在不使用任何标注的视觉 - 目标语言数据对的情况下实现视觉和目标语言之间的对齐。本研究提出了一种名为 CL2CM 的通用框架,使用跨语言转移改善了视觉和目标语言之间的对齐,可在跨模态网络中为可靠全面的语义对应(知识)提供优势,并通过在多语言图像 - 文本数据集和视频 - 文本数据集上进行实验验证了其高潜力和有效性。
Dec, 2023
基于最优传输的鲁棒跨模态检索框架(UOT-RCL)通过语义对齐和关系对齐两个组件,有效处理嘈杂标签并提高对噪声的鲁棒性,在三个广泛使用的跨模态检索数据集上超过了当前最先进方法。
Mar, 2024
提出了一种简单但有效的 1 对 K 对比学习方法,平等对待每种语言,消除错误传播和优化偏差的问题,并提出了一个新的评估指标 Mean Rank Variance(MRV),来反映每个实例内不同语言之间的排名不一致。在四个 CCR 数据集上进行的广泛实验表明,我们的方法在小规模预训练数据上提高了召回率和 MRV,并取得了新的最新成果。
Jun, 2024
本论文提出了一种名为 Coordinated Vision Language Retrieval (CoVLR) 的新方法,利用 meta-optimization 来协调交叉模态对齐和单模态群集维护,从而同时确保交叉模态一致性和单模态结构,实验结果表明 CoVLR 方法能够提高单模态检索准确性,同时保留跨模态检索能力。
Apr, 2023
UC2 是第一个基于机器翻译增强的框架,用于跨语言跨模态表示学习。我们扩充了现有的只有英语的数据集,通过机器翻译引入了其他语言的图像标题,然后将标准的 Masked Language Modeling 和 Image-Text Matching 训练目标扩展到多语言环境,通过共享视觉上下文(即使用图像作为枢纽)来捕获不同语言之间的对齐。最终我们提出了两个新的预训练任务,Masked Region-to-Token Modeling(MRTM)和 Visual Translation Language Modeling(VTLM),以加快图像和所有感兴趣语言的联合嵌入空间的学习。在多语言图像文本检索和多语言视觉问答基准上的评估表明,我们的提议框架在各种非英语基准上实现了新的最先进状态,并在英语任务上保持与单语预训练模型相当的性能。
Apr, 2021
我们提出了一种协同双流视觉 - 语言预训练模型(COTS),通过增强跨模态交互实现图像 - 文本检索,包括实例级别对齐、标记级别交互和任务级别交互,实验结果显示该模型在所有双流方法中表现最佳,与最新的单流方法相当(但推理速度快了 10,800 倍),且适用于文本 - 视频检索,在广泛使用的 MSR-VTT 数据集上取得了新的最佳结果。
Apr, 2022
本研究提出了一种跨语言跨模态知识蒸馏的方法,使用跨语言文本数据训练学生模型,以匹配用英语文本数据训练的教师模型的跨模态预测。通过引入新的多语言视频数据集 Multi-youcook2 验证了该方法的有效性。
Oct, 2022
本文提出了 OPTICAL:优化传输蒸馏用于低资源跨语种信息检索,该方法利用优化传输问题将知识从双语数据中分离出来,只需要少量数据就可以在低资源语种上显著提高效果。
Jan, 2023
该论文提出了 Cross-modal Hybrid Transfer Network (CHTN),包含两个子网络:Modal-sharing transfer subnetwork 和 Layer-sharing correlation subnetwork,用于在不同模态之间进行知识迁移和跨模态检索。
Jun, 2017
本文提出了基于知识蒸馏的跨语言摘要框架,通过 Sinkhorn Divergence 实现了师生之间的知识转移,并在跨语言摘要数据集上证明了该方法的高效性。
Dec, 2021