本文对异构数据检索问题进行了探讨,综述并分类了已有的交叉检索方法,包括基于实值表示学习和基于二进制表示学习的方法,并介绍了多个常用的多模态数据集以及比较不同方法的实验结果。
Jul, 2016
通过跨模态引导和模态置信度集成,X-MoRe 方法利用 CLIP 的跨模态表示能力,从外部图文对数据集中检索相关的文本信息,并通过赋予可靠性更高的模态对最终预测产生贡献,从而在多样化的任务中展示了稳健的性能,充分发挥了 CLIP 的零样本分类能力。
Aug, 2023
本文提出了一种交叉模态检索系统,利用图像和文本编码,实现了同时检索模态的功能,避免了需要为每个模态使用不同网络的缺点。在所使用的知识中,本文是第一篇采用单一网络和融合的图像 - 文本嵌入进行跨模态检索的工作。在 MS-COCO 和 Flickr30K 两个著名的多模态数据集上对该方法进行了评估。
Jul, 2018
基于知识的视觉问答(VQA)涉及使用多模态知识库的信息检索,命名实体的多样化视觉表现使其难以识别,我们认为跨模态检索可能有助于弥合实体与其描述之间的语义差距,对单模态检索产生互补作用,通过对最近的 ViQuAE、InfoSeek 和 Encyclopedic-VQA 数据集上的实验,我们提供了经验证据。此外,我们研究了三种不同的模型微调策略:单模态、跨模态或联合训练。我们的方法结合了单模态和跨模态检索,与三个数据集上的数十亿参数模型相竞争,同时在概念上更简单、计算上更廉价。
Jan, 2024
本文提出了一种跨模态相依的一致性模型,用于提高现有联合理解模型的性能,结果展示出使用相依性理念的模型能够更好地检索与目标文本相关的图像,这对不同模态间的沟通及在捕获文本与图像常识推理中相依性关系的角色具有重要的研究意义。
Sep, 2021
跨语言跨模态检索致力于在不使用任何标注的视觉 - 目标语言数据对的情况下实现视觉和目标语言之间的对齐。本研究提出了一种名为 CL2CM 的通用框架,使用跨语言转移改善了视觉和目标语言之间的对齐,可在跨模态网络中为可靠全面的语义对应(知识)提供优势,并通过在多语言图像 - 文本数据集和视频 - 文本数据集上进行实验验证了其高潜力和有效性。
Dec, 2023
本文提出了一种名为交叉模态相似性转移的方法,以无监督的方式学习和保持不成对但语义上相似的数据项目之间的联系,并在类别和对排序检索任务中表现出了优于现有技术的结果。
Apr, 2019
本论文提出了一种名为 Coordinated Vision Language Retrieval (CoVLR) 的新方法,利用 meta-optimization 来协调交叉模态对齐和单模态群集维护,从而同时确保交叉模态一致性和单模态结构,实验结果表明 CoVLR 方法能够提高单模态检索准确性,同时保留跨模态检索能力。
Apr, 2023
本文提出了一个结合多模态学习嵌入与持续学习的框架,研究了新任务导致了的困扰与不同因素造成的遗忘,发现索引阶段对任务效果有显著影响,并提出缓解遗忘的工具。在两个图像 - 文本检索数据集中证明了我们的方法的显著提高。
Apr, 2021
本研究提出了一种名为 COOKIE 的对比交叉模态知识共享预训练方法,采用传统的双流结构并结合两个有效的模块实现文本 - 图像联合表征,旨在提高跨模态检索的计算效率和统计指标。
Jul, 2022