通过学习和转移单模相似度实现对抗性跨模检索
本文对异构数据检索问题进行了探讨,综述并分类了已有的交叉检索方法,包括基于实值表示学习和基于二进制表示学习的方法,并介绍了多个常用的多模态数据集以及比较不同方法的实验结果。
Jul, 2016
跨语言跨模态检索致力于在不使用任何标注的视觉 - 目标语言数据对的情况下实现视觉和目标语言之间的对齐。本研究提出了一种名为 CL2CM 的通用框架,使用跨语言转移改善了视觉和目标语言之间的对齐,可在跨模态网络中为可靠全面的语义对应(知识)提供优势,并通过在多语言图像 - 文本数据集和视频 - 文本数据集上进行实验验证了其高潜力和有效性。
Dec, 2023
该论文提出了 Cross-modal Hybrid Transfer Network (CHTN),包含两个子网络:Modal-sharing transfer subnetwork 和 Layer-sharing correlation subnetwork,用于在不同模态之间进行知识迁移和跨模态检索。
Jun, 2017
本研究提出一种基于交叉模态相似性学习算法的跨媒体特征匹配方法,通过双线性约束和核范数惩罚实现低秩表示,并应用加速迭代最小化算法实现快速收敛。实验结果表明,在三个知名的图像 - 文本跨媒体检索数据库中,本方法较之现有算法具有更佳性能。
Nov, 2014
该论文提出一种新的语义相似度评估指标 SemanticMap 来评估跨模态检索系统的性能,并且提出了基于单流网络的新型跨模态检索系统,该系统使用深度神经网络训练,并在 MSCOCO 和 Flickr30K 数据集上进行了评估。
Sep, 2019
提出两种不同的方法来解决跨模态检索的问题,一种基于 CLIP 对任意数量的输入模式进行扩展,而第二种方法通过回归跨模态相似性来解决协调问题,并在多个数据集上进行实验证明其简单有效,并允许以新的方式解决检索问题。
Jan, 2024
本文给出了一种紧凑的编码方案,使用量化方法实现跨模态搜索,通过联合学习图像和文本的量化器来实现。经过实验证明,该方法在三个基准数据集上实现了最先进的性能表现。
Feb, 2019
本文提出了 CDMLMR 方法,该方法以多任务正则化的方式融合四元组排名损失和半监督对比损失,用于建模跨模态语义相似性;与现有方法相比,该方法不仅利用了相似性排名信息,还利用了未标记的跨模态数据,从而提高了跨模态检索准确性。
Mar, 2017
本文提出了一种名为 ConST 的跨模态对比学习方法,用于端到端的语音到文本翻译,并在流行基准数据集 MuST-C 上对其进行了评估和比较。实验结果表明,相比之前的方法,该方法在不同模态语音 - 文本之间实现了更高的精确度和平均 BLEU 达到了 29.4。同时分析结果进一步证明了 ConST 获得了更好的表示学习结果。
May, 2022