释放文本的想象力：通过探索文字的力量实现文本到图像的人员检索的新框架

Jul, 2023

释放文本的想象力：通过探索文字的力量实现文本到图像的人员检索的新框架

Unleashing the Imagination of Text: A Novel Framework for Text-to-image Person Retrieval via Exploring the Power of Words

PDF

Delong Liu, Haiwen Li

TL;DR提出了一种用于文本到图像人物检索的新框架，旨在充分发掘句子中的词语力量。通过使用预训练的全 CLIP 模型作为图像和文本的双编码器，以及引入文本引导的图像恢复辅助任务和针对难样本的交叉模态三元组损失，该方法在三个流行的基准数据集上取得了最先进的结果。

Abstract

The goal of text-to-image person retrieval is to retrieve person images from a large gallery that match the given textual descriptions. The main challenge of this task lies in the significant differences in information representation between the visual and textual →

text-to-image person retrieval modalities expressive power cross-modal alignment text data augmentation

发现论文，激发创造

统一的文本到图像生成和检索

研究中，我们提出了一个统一框架，以多模态大型语言模型（MLLMs）为背景，探索了文本到图像生成和检索之间的关系，并引入了一种生成检索方法，在无需训练的情况下进行检索。我们还构建了一个基准测试集 TIGeR-Bench 以标准化统一的文本到图像生成和检索方法的评估，并在 TIGeR-Bench 以及两个检索基准测试集 Flickr30K 和 MS-COCO 上进行了大量实验，证明了我们提出方法的优越性和效果。

Jun, 2024

以精细化理解带来更丰富的视野：基于隐含模态对文本人物检索的对齐

本研究提出了一种隐式视觉 - 文本框架，通过多级和双向遮罩建模方法实现跨模态匹配，提高了人物的文本检索效果。

Aug, 2022

文本到图像的跨模态隐含关系推理和对齐的人物检索

研究了跨模态对齐的图像检索问题，提出了一种 IRRA 框架，并在三个公共数据集上获得了优于现有方法的最新成果。

Mar, 2023

基于伪造文本的统一预训练技术用于文本 - 图像人物重识别

该论文介绍了一种面向文本到图像人物重识别任务的统一预训练方法 (UniPT)，通过构建大规模的文本标注人物数据集、使用视觉 - 语言预训练框架来对齐图像和文本模态的特征空间，解决了数据不一致性和训练不一致性的问题。UniPT 在多个数据集上取得了有竞争力的准确率。

Sep, 2023

通过生成模型改进文本 - 视觉交叉检索：观察、想象和匹配

本文提出一种新的跨模态检索方法，利用生成式模型学习多模态数据的全局和本地特征，从而在 MSCOCO 数据集上实现了最先进的跨模态检索结果。

Nov, 2017

图像检索中的文本与图像构成 - 实证之旅

本文提出了一种基于图像和文本相结合的检索方法，利用相似度度量、嵌入式学习以及组合函数对目标图像进行了描述，并在三种不同数据集上进行了验证，证明了该方法在输入查询分类和图像检索方面的有效性。

Dec, 2018

一张图抵一千言：使用文本反演个性化文本到图像生成

使用 3-5 张用户提供的概念图片，在文本到图像模型的嵌入空间中学习表示之后，将其转化成新的 “单词”，从而达到自由创造。

Aug, 2022

高效的令牌引导下的图像文本检索与一致多模态对比性训练

本文提出了一种基于 Token-Guided Dual Transformer (TGDT) architecture 的图像文本检索框架，将粗粒度和细粒度表示学习结合到一个统一的框架中，并提出了一种名为同步多模态对比损失的新型训练目标，通过混合全局和本地跨模态相似性的两个阶段的推理方法，实现了与代表性最新方法相比极低的推理时间下，实现了最先进的检索表现。

Jun, 2023

重新审视跨模态检索

本文提出了一种交叉模态检索系统，利用图像和文本编码，实现了同时检索模态的功能，避免了需要为每个模态使用不同网络的缺点。在所使用的知识中，本文是第一篇采用单一网络和融合的图像 - 文本嵌入进行跨模态检索的工作。在 MS-COCO 和 Flickr30K 两个著名的多模态数据集上对该方法进行了评估。

Jul, 2018

通过多模态蕴含修订图像 - 文本检索

本论文提出了一种多模态蕴含分类器来确定图像的语句，以及开发了一种通用可调节学习速率策略来教授一个检索模型区分这些蕴含的语句和其他负样本。在实验中，我们手动注释了一个蕴含更正的图像文本检索数据集用于评估。结果表明，所提出的蕴含分类器达到了约 78% 的准确度，并持续提高了图像文本检索基线的性能。

Aug, 2022