BiLMa: 文本人物重新识别的双向局部匹配

ICCVSep, 2023

BiLMa: 文本人物重新识别的双向局部匹配

BiLMa: Bidirectional Local-Matching for Text-based Person Re-identification

Takuro Fujii, Shuhei Tarashima

TL;DR通过引入双向本地匹配 (BiLMa) 框架，我们在文本输入的图像识别任务中提出了 Masked Language Modeling (MLM) 和 Masked Image Modeling (MIM) 的联合优化方法，同时引入 Semantic MIM (SemMIM) 来减小图像和文本之间的语义差距。实验证明，我们的 BiLMa 框架与 SemMIM 在三个评估基准上达到了最先进的 Rank@1 和 mAP 得分。

Abstract

text-based person re-identification (TBPReID) aims to retrieve person images represented by a given textual query. In this task, how to effectively align images and texts globally and locally is a crucial challenge. Recent works have obtained high performances by solving →

text-based person re-identification aligned image-text bidirectional local-matching masked language modeling semantic mim

发现论文，激发创造

LAIP: 从图像短语建模中学习本地对齐以用于基于文本的人物搜索

本篇论文提出了基于图像 - 短语建模的本地对齐（LAIP）框架，其中包括双向注意力加权本地对齐（BidirAtt）和掩码短语建模（MPM）模块。实验证明，LAIP 框架在 CUHK-PEDES、ICFG-PEDES 和 RSTPReid 数据集上相比于现有方法具有更好的性能。

Jun, 2024

利用 MLLM 的能力进行可迁移的文本到图像人物再识别

通过使用多模态大型语言模型，本文提出了一种用于人物图像重新识别的文本到图像转换方法，通过生成各种模板的描述来构建大规模数据集，同时使用相似性判断方法处理不准确的描述，从而显著提升直接转换的文本到图像人物重新识别性能。

May, 2024

MLLMReID: 基于多模态大型语言模型的人员再识别

这篇论文提出了一种名为 MLLMReID 的多模态大型语言模型，通过细调和指导学习的方式来优化人员再识别任务，并通过实验证明了其优越性。

Jan, 2024

对抗表示学习用于文本到图像匹配

本文提出了一种基于 TIMAM 和 BERT 的文本图像匹配模型，该模型可以学习到模态不变的特征表示，在四个公开数据集上取得了最优的交叉模态匹配性能，排名 1 的准确率提高了 2％到 5％。

Aug, 2019

MLIM: 带掩码语言和图像建模的视觉语言模型预训练

本文介绍了一种新的 VLP 方法：MLIM，它使用 Masked Language Modeling 和 Image Reconstruction 两种损失函数以及 Modality Aware Masking 技术来增强语言和图片之间的交互，并在 e-commerce 多模态数据集上展示了更好的下游任务表现。

Sep, 2021

自然语言句子的双向多角度匹配

提出一种双向多角度匹配（Bilateral Multi-Perspective Matching）模型，利用 BiLSTM 编码器实现 “匹配 - 汇聚” 框架下的多角度匹配，用于自然语言句子匹配，在对比实验中取得了和前沿技术同等水平的性能表现。

Feb, 2017

BIM: 基于块的自监督学习与图像模型掩膜

我们引入了一种新的学习框架，即分块式遮蔽图像建模（BIM），用于解决遮蔽图像建模（MIM）的计算资源需求高的问题，并在保持卓越性能的同时大大降低内存消耗，同时实现多个深度不同的 DNN 骨干的并发训练，从而降低与单独训练每个 DNN 骨干相比的计算成本。这为资源受限的 MIM 训练提供了有前景的解决方案。

Nov, 2023

通过多粒度图像文本对齐提高基于描述的人员再识别

本文提出了一个 Multi-granularity Image-text Alignments (MIA) 模型，用于减轻描述基础人物的 Re-id 中的跨模态细粒度问题，以进行更好的相似度评估。实验表明，该方法在 CUHK-PEDES 数据集上取得了最先进的性能，并且实现了显着优于以往方法的效果。

Jun, 2019

语义增强的跨模态遮蔽图像建模及视觉 - 语言预训练

我们提出了一个语义增强的视觉 - 语言预训练模型，通过引入局部语义增强方法和文字引导的遮蔽策略，实现了跨模态语义对齐，在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。

Mar, 2024

文本到图像的跨模态隐含关系推理和对齐的人物检索

研究了跨模态对齐的图像检索问题，提出了一种 IRRA 框架，并在三个公共数据集上获得了优于现有方法的最新成果。

Mar, 2023