改进的概率图像文本表示

May, 2023

Improved Probabilistic Image-Text Representations

Sanghyuk Chun

TL;DR本文提出了一种改进的概率交叉模态嵌入（PCME ++）方法，用于改进图像文本匹配（ITM）中可能存在的模糊度问题，并通过引入一种新的概率距离与解决方案以及两种优化技术来进一步增强 PCME ++。该研究表明，PCME ++ 相对于最先进的 ITM 方法具有良好的鲁棒性，并可应用于零样本分类中自动提示调优的实践中。

Abstract

image-text matching (ITM) task, a fundamental vision-language (VL) task, suffers from the inherent ambiguity arising from multiplicity and imperfect annotations. Deterministic functions are not sufficiently powerful to capture ambiguity, prompting the exploration of →

image-text matching probabilistic embeddings optimization techniques data augmentation zero-shot classification

发现论文，激发创造

跨模态检索的概率嵌入

本研究提出了一种基于概率交叉模态嵌入的跨模态检索方法，该方法能够捕捉到一个图像或者一句话与多个相应图像或句子间的一对多关系。我们通过在 CUB 数据集上测试，证明了该方法不仅能提高检索性能，而且可以提供可解释性和不确定性的嵌入表示。

Jan, 2021

基于不确定性的概率表示交叉模态检索

本文研究了在跨模态（即文本和图像）环境下使用概率嵌入的优势，并提出了一种简单的方法，将现有图像 - 文本匹配模型中的标准向量点嵌入替换为参数化学习的概率分布。通过广泛的实验，证明在跨模态检索中，概率表示法具有一致的优势，并验证了其捕捉不确定性的能力。

Apr, 2022

ECCV 标题：通过收集 MS-COCO 的机器和人验证的图像字幕关联来纠正假阴性

通过构建扩展 COCO 验证（ECCV）标题数据集，并使用五种最先进的 ITM 模型进行注释，提供了比原来的 MS-COCO 更多的正面图像 - 标题和标题 - 图像关联。我们提出使用信息排名度量 mAP@R 而不是普通的 R@K，并重评估现有的 25 个 VL 模型。我们研究了机器标注选择引入的偏差对结果的影响。

Apr, 2022

多模式图像检索的概率组合嵌入

本文在图像检索中，研究了使用多个多模态查询的检索场景，并提出了一种新的多模态概率组合器，用于检索具有多个多模态查询指定语义概念的目标图像，同时在基于 MS-COCO 数据集的新基准上评估了我们的模型表现。

Apr, 2022

使用文本驱动的软掩膜进行多模态表征学习

提出了一个自我监督学习框架中的视觉语言表示学习方法，引入了一种新的操作、损失和数据增强策略，其中将图像中最相关于对应的标题中某个单词的区域进行软掩蔽以生成多样的图像特征，然后通过多模态编码器计算出每个单词的条件视觉注意力来确定与其相关的区域，提出了一个用于图像文本对比学习（ITC）目标的焦点损失，并进行多模态数据增强以进行自我监督学习。

Apr, 2023

Hire: 多关系增强的图片文字匹配的混合模态交互

我们提出了一种具有多重关系增强的混合模态交互（称为 Hire）的图像文本匹配方法，通过内外模态语义相关性的关联来改善物体和文本的上下文表示，进而获得更好的图像文本匹配结果。

Jun, 2024

RoCOCO：鲁棒性基准 MS-COCO 以测试图像文本匹配模型的鲁棒性

本文提出了一个新的评估基准来测试 ITM 模型的稳健性，加入了各种欺骗性图像和标题来检测模型。结果发现，添加这些图像和标题会降低 SOTA 模型的性能，预计这些结果能提高模型的鲁棒性和引入更多的评估方法。

Apr, 2023

通过利用图文辅助任务提升社交媒体帖子的多模态分类

利用社交媒体帖子中的多模态信息，通过引入辅助损失与主任务相结合的方式，成功解决了文本和图像信息融合中的挑战，取得了一致的改进效果，并通过详细分析揭示了辅助任务在特定场景和案例中的最有效性。

Sep, 2023

通过生成模型改进文本 - 视觉交叉检索：观察、想象和匹配

本文提出一种新的跨模态检索方法，利用生成式模型学习多模态数据的全局和本地特征，从而在 MSCOCO 数据集上实现了最先进的跨模态检索结果。

Nov, 2017

对抗表示学习用于文本到图像匹配

本文提出了一种基于 TIMAM 和 BERT 的文本图像匹配模型，该模型可以学习到模态不变的特征表示，在四个公开数据集上取得了最优的交叉模态匹配性能，排名 1 的准确率提高了 2％到 5％。

Aug, 2019