LAIP: 从图像短语建模中学习本地对齐以用于基于文本的人物搜索

Jun, 2024

LAIP: 从图像短语建模中学习本地对齐以用于基于文本的人物搜索

LAIP: Learning Local Alignment from Image-Phrase Modeling for Text-based Person Search

Yu Wu, Haiguang Wang, Mengxia Wu, Cao Min, Min Zhang

TL;DR本篇论文提出了基于图像 - 短语建模的本地对齐（LAIP）框架，其中包括双向注意力加权本地对齐（BidirAtt）和掩码短语建模（MPM）模块。实验证明，LAIP 框架在 CUHK-PEDES、ICFG-PEDES 和 RSTPReid 数据集上相比于现有方法具有更好的性能。

Abstract

text-based person search aims at retrieving images of a particular person based on a given textual description. A common solution for this task is to directly match the entire images and texts, i.e., global alignment

text-based person search global alignment local alignment laip framework bidirectional attention-weighted local alignment

发现论文，激发创造

BiLMa: 文本人物重新识别的双向局部匹配

通过引入双向本地匹配 (BiLMa) 框架，我们在文本输入的图像识别任务中提出了 Masked Language Modeling (MLM) 和 Masked Image Modeling (MIM) 的联合优化方法，同时引入 Semantic MIM (SemMIM) 来减小图像和文本之间的语义差距。实验证明，我们的 BiLMa 框架与 SemMIM 在三个评估基准上达到了最先进的 Rank@1 和 mAP 得分。

Sep, 2023

MLIP：医学语言 - 图像预训练与遮蔽局部表示学习

本文旨在通过引入多对多局部关系建模来增强数据效率，从而更有效地利用有限的医学图像文本数据。我们提出了医学语言 - 图像预训练（MLIP）框架，通过补丁 - 句子匹配的方式更有效地利用图像 - 文本医学数据，同时引入遮蔽对比学习策略和语义完整性估计以减少图像中的冗余并保留其底层语义。我们的评估结果显示，MLIP 在零 / 少样本分类和少样本分割任务中表现出较大的优势。

Jan, 2024

面向文本属性的隐式模态对齐的人物搜索

通过 Attribute-Aware Implicit Modality Alignment (AIMA) 框架，使用 CLIP 模型及 Attribute-IoU Guided Intra-Modal Contrastive (A-IoU IMC) Loss，实现了文本属性人物搜索中文本属性与图像之间的对齐和表示匹配，进一步优化了语义排列。

Jun, 2024

PLIP: 人物表示学习的语言图像预训练

该研究提出了一种新的预训练框架用于人物表征学习，名为 PLIP，其中包括三个预文本任务：图像着色、属性预测和视觉 - 语言匹配，在一个新的大规模人物数据集 SYNTH-PEDES 上对其进行了评估并取得了优于先前方法的效果。

May, 2023

基于文本的人物搜索中的图像特定信息抑制和隐式局部对齐

本论文提出了一种有效的联合信息和语义对齐网络 (ISANet) 用于文本驱动的人物搜索，该网络能够准确定位和对齐图像和文本之间的信息，并能够适应性地聚合图像和文本特征以实现本地细粒度对应关系和全局对齐，并在多个数据库上取得了优越的性能。

Aug, 2022

通过多粒度图像文本对齐提高基于描述的人员再识别

本文提出了一个 Multi-granularity Image-text Alignments (MIA) 模型，用于减轻描述基础人物的 Re-id 中的跨模态细粒度问题，以进行更好的相似度评估。实验表明，该方法在 CUHK-PEDES 数据集上取得了最先进的性能，并且实现了显着优于以往方法的效果。

Jun, 2019

MLIM: 带掩码语言和图像建模的视觉语言模型预训练

本文介绍了一种新的 VLP 方法：MLIM，它使用 Masked Language Modeling 和 Image Reconstruction 两种损失函数以及 Modality Aware Masking 技术来增强语言和图片之间的交互，并在 e-commerce 多模态数据集上展示了更好的下游任务表现。

Sep, 2021

利用 MLLM 的能力进行可迁移的文本到图像人物再识别

通过使用多模态大型语言模型，本文提出了一种用于人物图像重新识别的文本到图像转换方法，通过生成各种模板的描述来构建大规模数据集，同时使用相似性判断方法处理不准确的描述，从而显著提升直接转换的文本到图像人物重新识别性能。

May, 2024

学习文本人物搜索的语义对齐特征表示

本文提出了一种基于语义对齐的嵌入方法，采用多头注意力模块和特征聚合网络进行特征对齐，以实现对于文本描述的行人图像搜索，并在 CUHK-PEDES 和 Flickr30K 数据集上取得了最先进的性能。

Dec, 2021

基于姿态引导的多粒度注意力网络用于基于文本的人物搜索

该研究提出了一种基于文本描述搜索人物图像的方法，通过使用多层次的视觉内容对不同语义相关性的相关图像和描述进行匹配，其中包括了多粒度的视觉信息。在 CUHK-PEDES 数据集上进行的实验表明，该方法在 top-1 指标上比现有方法高出 15％。

Sep, 2018