LAIP: 从图像短语建模中学习本地对齐以用于基于文本的人物搜索
通过引入双向本地匹配 (BiLMa) 框架,我们在文本输入的图像识别任务中提出了 Masked Language Modeling (MLM) 和 Masked Image Modeling (MIM) 的联合优化方法,同时引入 Semantic MIM (SemMIM) 来减小图像和文本之间的语义差距。实验证明,我们的 BiLMa 框架与 SemMIM 在三个评估基准上达到了最先进的 Rank@1 和 mAP 得分。
Sep, 2023
本文旨在通过引入多对多局部关系建模来增强数据效率,从而更有效地利用有限的医学图像文本数据。我们提出了医学语言 - 图像预训练(MLIP)框架,通过补丁 - 句子匹配的方式更有效地利用图像 - 文本医学数据,同时引入遮蔽对比学习策略和语义完整性估计以减少图像中的冗余并保留其底层语义。我们的评估结果显示,MLIP 在零 / 少样本分类和少样本分割任务中表现出较大的优势。
Jan, 2024
通过 Attribute-Aware Implicit Modality Alignment (AIMA) 框架,使用 CLIP 模型及 Attribute-IoU Guided Intra-Modal Contrastive (A-IoU IMC) Loss,实现了文本属性人物搜索中文本属性与图像之间的对齐和表示匹配,进一步优化了语义排列。
Jun, 2024
该研究提出了一种新的预训练框架用于人物表征学习,名为 PLIP,其中包括三个预文本任务:图像着色、属性预测和视觉 - 语言匹配,在一个新的大规模人物数据集 SYNTH-PEDES 上对其进行了评估并取得了优于先前方法的效果。
May, 2023
本论文提出了一种有效的联合信息和语义对齐网络 (ISANet) 用于文本驱动的人物搜索,该网络能够准确定位和对齐图像和文本之间的信息,并能够适应性地聚合图像和文本特征以实现本地细粒度对应关系和全局对齐,并在多个数据库上取得了优越的性能。
Aug, 2022
本文提出了一个 Multi-granularity Image-text Alignments (MIA) 模型,用于减轻描述基础人物的 Re-id 中的跨模态细粒度问题,以进行更好的相似度评估。实验表明,该方法在 CUHK-PEDES 数据集上取得了最先进的性能,并且实现了显着优于以往方法的效果。
Jun, 2019
本文介绍了一种新的 VLP 方法:MLIM,它使用 Masked Language Modeling 和 Image Reconstruction 两种损失函数以及 Modality Aware Masking 技术来增强语言和图片之间的交互,并在 e-commerce 多模态数据集上展示了更好的下游任务表现。
Sep, 2021
通过使用多模态大型语言模型,本文提出了一种用于人物图像重新识别的文本到图像转换方法,通过生成各种模板的描述来构建大规模数据集,同时使用相似性判断方法处理不准确的描述,从而显著提升直接转换的文本到图像人物重新识别性能。
May, 2024
本文提出了一种基于语义对齐的嵌入方法,采用多头注意力模块和特征聚合网络进行特征对齐,以实现对于文本描述的行人图像搜索,并在 CUHK-PEDES 和 Flickr30K 数据集上取得了最先进的性能。
Dec, 2021
该研究提出了一种基于文本描述搜索人物图像的方法,通过使用多层次的视觉内容对不同语义相关性的相关图像和描述进行匹配,其中包括了多粒度的视觉信息。在 CUHK-PEDES 数据集上进行的实验表明,该方法在 top-1 指标上比现有方法高出 15%。
Sep, 2018