通过学习和转移单模相似度实现对抗性跨模检索

Apr, 2019

通过学习和转移单模相似度实现对抗性跨模检索

Adversarial Cross-Modal Retrieval via Learning and Transferring Single-Modal Similarities

Xin Wen, Zhizhong Han, Xinyu Yin, Yu-Shen Liu

TL;DR本文提出了一种名为交叉模态相似性转移的方法，以无监督的方式学习和保持不成对但语义上相似的数据项目之间的联系，并在类别和对排序检索任务中表现出了优于现有技术的结果。

Abstract

cross-modal retrieval aims to retrieve relevant data across different modalities (e.g., texts vs. images). The common strategy is to apply element-wise constraints between manually labeled pair-wise items to guide the generators to learn the →

cross-modal retrieval semantic relationships common representation subspace cmst method unsupervised

发现论文，激发创造

跨模态检索综述

本文对异构数据检索问题进行了探讨，综述并分类了已有的交叉检索方法，包括基于实值表示学习和基于二进制表示学习的方法，并介绍了多个常用的多模态数据集以及比较不同方法的实验结果。

Jul, 2016

CL2CM: 通过跨语言知识转移提升跨语言跨模态检索

跨语言跨模态检索致力于在不使用任何标注的视觉 - 目标语言数据对的情况下实现视觉和目标语言之间的对齐。本研究提出了一种名为 CL2CM 的通用框架，使用跨语言转移改善了视觉和目标语言之间的对齐，可在跨模态网络中为可靠全面的语义对应（知识）提供优势，并通过在多语言图像 - 文本数据集和视频 - 文本数据集上进行实验验证了其高潜力和有效性。

Dec, 2023

混合传递网络实现跨模态共同表示学习

该论文提出了 Cross-modal Hybrid Transfer Network (CHTN)，包含两个子网络：Modal-sharing transfer subnetwork 和 Layer-sharing correlation subnetwork，用于在不同模态之间进行知识迁移和跨模态检索。

Jun, 2017

跨模态相似性学习：一种低秩双线性表达

本研究提出一种基于交叉模态相似性学习算法的跨媒体特征匹配方法，通过双线性约束和核范数惩罚实现低秩表示，并应用加速迭代最小化算法实现快速收敛。实验结果表明，在三个知名的图像 - 文本跨媒体检索数据库中，本方法较之现有算法具有更佳性能。

Nov, 2014

跨模态系统是否利用语义关系？

该论文提出一种新的语义相似度评估指标 SemanticMap 来评估跨模态检索系统的性能，并且提出了基于单流网络的新型跨模态检索系统，该系统使用深度神经网络训练，并在 MSCOCO 和 Flickr30K 数据集上进行了评估。

Sep, 2019

跨模态协调：在多元输入模态中的协同

提出两种不同的方法来解决跨模态检索的问题，一种基于 CLIP 对任意数量的输入模式进行扩展，而第二种方法通过回归跨模态相似性来解决协调问题，并在多个数据集上进行实验证明其简单有效，并允许以新的方式解决检索问题。

Jan, 2024

跨模态相似性搜索的协作量化

本文给出了一种紧凑的编码方案，使用量化方法实现跨模态搜索，通过联合学习图像和文本的量化器来实现。经过实验证明，该方法在三个基准数据集上实现了最先进的性能表现。

Feb, 2019

跨模态多任务正则化深度度量学习

本文提出了 CDMLMR 方法，该方法以多任务正则化的方式融合四元组排名损失和半监督对比损失，用于建模跨模态语义相似性；与现有方法相比，该方法不仅利用了相似性排名信息，还利用了未标记的跨模态数据，从而提高了跨模态检索准确性。

Mar, 2017

跨模态对比学习用于语音翻译

本文提出了一种名为 ConST 的跨模态对比学习方法，用于端到端的语音到文本翻译，并在流行基准数据集 MuST-C 上对其进行了评估和比较。实验结果表明，相比之前的方法，该方法在不同模态语音 - 文本之间实现了更高的精确度和平均 BLEU 达到了 29.4。同时分析结果进一步证明了 ConST 获得了更好的表示学习结果。

May, 2022

多模态相似性学习

本文提出了一种基于多核学习以及基于图的过滤技术的方法，将多媒体数据中的多种模态融合到单一的相似度空间中，以解决多媒体数据中的主观问题和不一致问题。

Aug, 2010