跨模态协调:在多元输入模态中的协同
本文提出一种新的跨模态检索方法,利用生成式模型学习多模态数据的全局和本地特征,从而在MSCOCO数据集上实现了最先进的跨模态检索结果。
Nov, 2017
本文提出了一种交叉模态检索系统,利用图像和文本编码,实现了同时检索模态的功能,避免了需要为每个模态使用不同网络的缺点。在所使用的知识中,本文是第一篇采用单一网络和融合的图像-文本嵌入进行跨模态检索的工作。在 MS-COCO 和 Flickr30K 两个著名的多模态数据集上对该方法进行了评估。
Jul, 2018
该论文提出一种新的语义相似度评估指标SemanticMap来评估跨模态检索系统的性能,并且提出了基于单流网络的新型跨模态检索系统,该系统使用深度神经网络训练,并在MSCOCO和Flickr30K数据集上进行了评估。
Sep, 2019
本篇研究提出了一种方法,使用特定的loss函数,在保持图像和文本子空间内的语义连贯性的同时鼓励它们之间的语义协同,并改进了基线模型,以实现跨模态检索。
Jul, 2020
本研究提出了一种基于概率交叉模态嵌入的跨模态检索方法,该方法能够捕捉到一个图像或者一句话与多个相应图像或句子间的一对多关系。我们通过在CUB数据集上测试,证明了该方法不仅能提高检索性能,而且可以提供可解释性和不确定性的嵌入表示。
Jan, 2021
本文提出了一种基于 fine-tuning 的框架,将任何预先训练的文本-图像多模态模型转换为高效的检索模型,并通过 cooperative retrieve-and-rerank 方法结合双网络和交叉编码器,实现更准确、更高效的跨模态检索。
Mar, 2021
本文使用最新的视觉-语言预训练模型CLIP,设计了一种名为CLIP4CMR的改进型跨模态检索框架,通过实验研究不同学习目标的设计问题、在解决多模态类别级联表示问题方面的应用、及其对实际应用的影响和灵敏度等关注方面的分析,对监督型跨模态检索进行了全面的实证研究,以期提供对模型设计和实际应用的意见和新视角。
Jan, 2022
本研究通过使用两种Transformer编码器架构来统一图像和文本之间的差异,提出了一种基于层次对齐Transformer的跨模态检索框架,通过多层次的对齐方案,对图像和文本进行了更好的交互和对齐,实验证明该框架优于其他SOTA基线,并在两个基准数据集上实现了显著的提升。
Aug, 2023
利用预训练的多模态对比表示空间可以从单模态数据中学习跨模态任务,我们提供了这个空间几何的理论解释,并引入了一个三步方法(连接、降维、破坏)来缩小模态差距,增强嵌入的互换性,实现了从单模态数据中有效地进行跨模态学习,取得了零样本图像/音频/视频字幕和文本到图像生成的最新成果。
Jan, 2024
本文提出了一种名为“Cross-modal BT (XBT)”的方法,通过引入一个经过预训练的投影模块来解决视觉-语言预训练模型(如CLIP)的向后兼容问题,有效降低了跨模态训练所需的图像-文本对数量并提高了效率,实验结果显示XBT的有效性及其在新VLP模型出现时实现无需回填的升级的潜力。
May, 2024