走向统一的基于文本的人员检索：一个大规模多属性和语言搜索基准

Jun, 2023

走向统一的基于文本的人员检索：一个大规模多属性和语言搜索基准

Towards Unified Text-based Person Retrieval: A Large-scale Multi-Attribute and Language Search Benchmark

Shuyu Yang, Yinan Zhou, Yaxiong Wang, Yujiao Wu, Li Zhu...

TL;DR本文提出了名为 MALS 的大型文本人物检索数据集，探讨了在属性识别和图像文本匹配任务上进行预训练的可行性，并使用 APTM 框架进行验证，取得了 3 个现实世界基准测试的最新检索表现。

Abstract

In this paper, we introduce a large Multi-Attribute and Language Search dataset for text-based person retrieval, called mals, and explore the feasibility of performing →

mals pre-training text-based person retrieval attribute recognition image-text matching

发现论文，激发创造

面向文本属性的隐式模态对齐的人物搜索

通过 Attribute-Aware Implicit Modality Alignment (AIMA) 框架，使用 CLIP 模型及 Attribute-IoU Guided Intra-Modal Contrastive (A-IoU IMC) Loss，实现了文本属性人物搜索中文本属性与图像之间的对齐和表示匹配，进一步优化了语义排列。

Jun, 2024

基于属性的多提示学习与跨模态对齐的人员再识别

使用生成的多个人属性作为提示来辅助更准确的 ReID 检索结果的潜力，我们提出了一种名为 Multi-Prompts ReID（MP-ReID）的新框架，基于提示学习和语言模型，充分利用精细属性来辅助 ReID 任务。实验证明了该解决方案的有效性和合理性。

Dec, 2023

搜索中的多意图属性感知文本匹配

通过多意图建模、属性感知编码和意图感知匹配等方法，我们提出了多意图属性感知匹配模型，旨在探索文本匹配系统中属性的有效性，以提高搜索查询与候选项的匹配效果。

Feb, 2024

使用大型语言模型的基于文本的人员检索的数据增强

该论文提出了基于大型语言模型的数据增强方法（LLM-DA）以提升文本检索模型在人物图像检索中的性能。LLM-DA 使用大型语言模型重写当前的文本数据集，通过增加词汇和句子结构的多样性来扩展数据集，同时保持原始关键概念和语义信息。为了抑制大型语言模型的幻觉，LLM-DA 引入了文本忠实度过滤器（TFF）来筛除不忠实的重写文本。为了平衡原始文本和扩增文本的贡献，提出了一种平衡采样策略（BSS）。实验结果表明，LLM-DA 能够提升当前文本检索模型在人物图像检索任务上的性能。

May, 2024

基于文本的有限数据人物搜索

本文提出了一种框架，利用跨模态动量对比学习和转移学习方法，来解决限定数据所带来的问题，进一步提高了图像库中针对性描述查询的效率，并在 CUHK-PEDES 数据集上达到了新的最高表现。

Oct, 2021

视觉 - 语言模型的多模态特征提示

我们提出了一种多模态属性提示方法（MAP），通过同时探索文本属性提示、视觉属性提示和属性级对齐来解决大规模预训练视觉 - 语言模型（VLMs）在少样本情况下的一些局限性，实验结果表明我们的方法在 11 个数据集上表现优于现有方法。

Mar, 2024

IMaT: 迭代匹配与翻译实现无监督文本属性转移

本论文主要介绍了一种称为 Iterative Matching and Translation (IMaT) 的方法，用于在保留语义内容的同时，自动重写句子以具备某些语言属性。该方法通过构建伪并行语料库来对齐语义相似的原始和目标语料库中的子集，然后应用标准的序列到序列模型来学习属性转移，并通过优化对齐中的不完美部分来迭代改善所学的转移函数。在情感修改和形式转移任务中，该方法表现优异。同时，作者提供了一个公开可用的测试集作为辅助贡献。

Jan, 2019

无需平行图像 - 文本数据的基于文本的人物搜索

本文提出了一种基于生成 - 检索（GTR）框架的文本搜索人物图像方法（TBPS），其中通过细粒度图像字幕和噪声评分训练来生成人物图像的伪文本，实现了不需要并行图像 - 文本数据的高效搜索。实验表明，所提出的方法在多个 TBPS 基准（即 CUHK-PEDES、ICFG-PEDES 和 RSTPReid）上具有很好的性能。

May, 2023

利用 MLLM 的能力进行可迁移的文本到图像人物再识别

通过使用多模态大型语言模型，本文提出了一种用于人物图像重新识别的文本到图像转换方法，通过生成各种模板的描述来构建大规模数据集，同时使用相似性判断方法处理不准确的描述，从而显著提升直接转换的文本到图像人物重新识别性能。

May, 2024

ViTAA: 自然语言下的人物搜索中，视觉 - 文本属性对齐

本文提出一种基于属性对齐的视觉 - 文本对齐方法 (ViTAA)，通过较轻的属性分割计算模块分离人物特征空间并使用对比学习损失函数对视觉和文本属性进行对齐，从而成功提升了自然语言下的人物搜索和属性 - 短语查询任务的表现，实现了最先进的结果。

May, 2020