走向统一的基于文本的人员检索:一个大规模多属性和语言搜索基准
通过 Attribute-Aware Implicit Modality Alignment (AIMA) 框架,使用 CLIP 模型及 Attribute-IoU Guided Intra-Modal Contrastive (A-IoU IMC) Loss,实现了文本属性人物搜索中文本属性与图像之间的对齐和表示匹配,进一步优化了语义排列。
Jun, 2024
使用生成的多个人属性作为提示来辅助更准确的 ReID 检索结果的潜力,我们提出了一种名为 Multi-Prompts ReID(MP-ReID)的新框架,基于提示学习和语言模型,充分利用精细属性来辅助 ReID 任务。实验证明了该解决方案的有效性和合理性。
Dec, 2023
通过多意图建模、属性感知编码和意图感知匹配等方法,我们提出了多意图属性感知匹配模型,旨在探索文本匹配系统中属性的有效性,以提高搜索查询与候选项的匹配效果。
Feb, 2024
该论文提出了基于大型语言模型的数据增强方法(LLM-DA)以提升文本检索模型在人物图像检索中的性能。LLM-DA 使用大型语言模型重写当前的文本数据集,通过增加词汇和句子结构的多样性来扩展数据集,同时保持原始关键概念和语义信息。为了抑制大型语言模型的幻觉,LLM-DA 引入了文本忠实度过滤器(TFF)来筛除不忠实的重写文本。为了平衡原始文本和扩增文本的贡献,提出了一种平衡采样策略(BSS)。实验结果表明,LLM-DA 能够提升当前文本检索模型在人物图像检索任务上的性能。
May, 2024
本文提出了一种框架,利用跨模态动量对比学习和转移学习方法,来解决限定数据所带来的问题,进一步提高了图像库中针对性描述查询的效率,并在 CUHK-PEDES 数据集上达到了新的最高表现。
Oct, 2021
我们提出了一种多模态属性提示方法(MAP),通过同时探索文本属性提示、视觉属性提示和属性级对齐来解决大规模预训练视觉 - 语言模型(VLMs)在少样本情况下的一些局限性,实验结果表明我们的方法在 11 个数据集上表现优于现有方法。
Mar, 2024
本论文主要介绍了一种称为 Iterative Matching and Translation (IMaT) 的方法,用于在保留语义内容的同时,自动重写句子以具备某些语言属性。该方法通过构建伪并行语料库来对齐语义相似的原始和目标语料库中的子集,然后应用标准的序列到序列模型来学习属性转移,并通过优化对齐中的不完美部分来迭代改善所学的转移函数。在情感修改和形式转移任务中,该方法表现优异。同时,作者提供了一个公开可用的测试集作为辅助贡献。
Jan, 2019
本文提出了一种基于生成 - 检索(GTR)框架的文本搜索人物图像方法(TBPS),其中通过细粒度图像字幕和噪声评分训练来生成人物图像的伪文本,实现了不需要并行图像 - 文本数据的高效搜索。实验表明,所提出的方法在多个 TBPS 基准(即 CUHK-PEDES、ICFG-PEDES 和 RSTPReid)上具有很好的性能。
May, 2023
通过使用多模态大型语言模型,本文提出了一种用于人物图像重新识别的文本到图像转换方法,通过生成各种模板的描述来构建大规模数据集,同时使用相似性判断方法处理不准确的描述,从而显著提升直接转换的文本到图像人物重新识别性能。
May, 2024
本文提出一种基于属性对齐的视觉 - 文本对齐方法 (ViTAA),通过较轻的属性分割计算模块分离人物特征空间并使用对比学习损失函数对视觉和文本属性进行对齐,从而成功提升了自然语言下的人物搜索和属性 - 短语查询任务的表现,实现了最先进的结果。
May, 2020