改进的概率图像文本表示
本研究提出了一种基于概率交叉模态嵌入的跨模态检索方法,该方法能够捕捉到一个图像或者一句话与多个相应图像或句子间的一对多关系。我们通过在 CUB 数据集上测试,证明了该方法不仅能提高检索性能,而且可以提供可解释性和不确定性的嵌入表示。
Jan, 2021
本文研究了在跨模态(即文本和图像)环境下使用概率嵌入的优势,并提出了一种简单的方法,将现有图像 - 文本匹配模型中的标准向量点嵌入替换为参数化学习的概率分布。通过广泛的实验,证明在跨模态检索中,概率表示法具有一致的优势,并验证了其捕捉不确定性的能力。
Apr, 2022
通过构建扩展 COCO 验证(ECCV)标题数据集,并使用五种最先进的 ITM 模型进行注释,提供了比原来的 MS-COCO 更多的正面图像 - 标题和标题 - 图像关联。我们提出使用信息排名度量 mAP@R 而不是普通的 R@K,并重评估现有的 25 个 VL 模型。我们研究了机器标注选择引入的偏差对结果的影响。
Apr, 2022
本文在图像检索中,研究了使用多个多模态查询的检索场景,并提出了一种新的多模态概率组合器,用于检索具有多个多模态查询指定语义概念的目标图像,同时在基于 MS-COCO 数据集的新基准上评估了我们的模型表现。
Apr, 2022
提出了一个自我监督学习框架中的视觉语言表示学习方法,引入了一种新的操作、损失和数据增强策略,其中将图像中最相关于对应的标题中某个单词的区域进行软掩蔽以生成多样的图像特征,然后通过多模态编码器计算出每个单词的条件视觉注意力来确定与其相关的区域,提出了一个用于图像文本对比学习(ITC)目标的焦点损失,并进行多模态数据增强以进行自我监督学习。
Apr, 2023
我们提出了一种具有多重关系增强的混合模态交互(称为 Hire)的图像文本匹配方法,通过内外模态语义相关性的关联来改善物体和文本的上下文表示,进而获得更好的图像文本匹配结果。
Jun, 2024
本文提出了一个新的评估基准来测试 ITM 模型的稳健性,加入了各种欺骗性图像和标题来检测模型。结果发现,添加这些图像和标题会降低 SOTA 模型的性能,预计这些结果能提高模型的鲁棒性和引入更多的评估方法。
Apr, 2023
利用社交媒体帖子中的多模态信息,通过引入辅助损失与主任务相结合的方式,成功解决了文本和图像信息融合中的挑战,取得了一致的改进效果,并通过详细分析揭示了辅助任务在特定场景和案例中的最有效性。
Sep, 2023
本文提出一种新的跨模态检索方法,利用生成式模型学习多模态数据的全局和本地特征,从而在 MSCOCO 数据集上实现了最先进的跨模态检索结果。
Nov, 2017
本文提出了一种基于 TIMAM 和 BERT 的文本图像匹配模型,该模型可以学习到模态不变的特征表示,在四个公开数据集上取得了最优的交叉模态匹配性能,排名 1 的准确率提高了 2%到 5%。
Aug, 2019