PLIP: 人物表示学习的语言图像预训练

May, 2023

PLIP: 人物表示学习的语言图像预训练

PLIP: Language-Image Pre-training for Person Representation Learning

Jialong Zuo, Changqian Yu, Nong Sang, Changxin Gao

TL;DR该研究提出了一种新的预训练框架用于人物表征学习，名为 PLIP，其中包括三个预文本任务：图像着色、属性预测和视觉 - 语言匹配，在一个新的大规模人物数据集 SYNTH-PEDES 上对其进行了评估并取得了优于先前方法的效果。

Abstract

pre-training has emerged as an effective technique for learning powerful person representations. Most existing methods have shown that pre-training on pure-vision large-scale datasets like ImageNet and LUPerson h

pre-training person representation learning language-image pre-training cross-modal association synth-pedes

发现论文，激发创造

NLIP: 噪声鲁棒性语言 - 图像预训练

本文提出了一种基于噪声抵抗的语言 - 图像预训练框架（NLIP），通过噪音协调和噪音补全两种方案来自动稳定预训练，以更有效地减轻图像文本预训练期间的常见噪声影响。通过协同优化噪音协调和噪音补全方案，NLIP 在零样本分类、MSCOCO 图像字幕和零样本图像文本检索任务上，仅使用 26M 数据就显示出与现有预训练模型（如 CLIP、FILIP 和 BLIP）相比的显着性能提高。

Dec, 2022

BLIP: 为实现统一的视觉语言理解与生成，引入语言 - 图像引导预训练

本文提出了 BLIP 作为新的 VLP 框架，通过引入 captioner 生成合成字幕，并使用 filter 删除噪音数据，能灵活地传输视觉语言理解和生成任务，获得了在一系列视觉语言任务中最先进的结果，同时在零样本任务中也表现出极强的泛化能力。

Jan, 2022

从多模态信息指导中学习可转移的行人表示

本文提出了一种学习可迁移表示以增强各种行人分析任务的新框架 VAL-PAT，并介绍了三个学习目标：自监督对比学习、图像文本对比学习和多属性分类。该框架在无标签人员图像的预训练下实现了良好的性能，并扩展到各种行人分析任务。

Apr, 2023

FILIP：细粒度的交互式语言图像预训练

本文介绍一种利用跨模态后期交互机制实现精细级别对齐的大规模 Fine-grained 互动语言 - 图像预训练（FILIP）方法，并构建了一个用于预训练的新的大规模图像 - 文本对数据集。实验结果显示，FILIP 在多个视觉 - 语言任务中实现了最先进的性能，包括零 - shot 图像分类和图像 - 文本检索。

Nov, 2021

MLIP: 高效多角度语言图像预训练与全面数据利用

通过引入频率转换和标记级别对齐的方法，提出了多视角语言 - 图像预训练（MLIP）来解决 CLIP 在数据利用效率方面的挑战，并通过标记合并方法来加快 CLIP 的速度。

Jun, 2024

ALIP: 自适应语言图像预训练与合成字幕

通过生成综合信息的合成字幕并动态调整样本权重，自适应对比损失有效降低噪音数据的影响并增强预训练数据效率，Adaptive Language-Image Pre-training (ALIP) 在不同规模模型和预训练数据集上进行了实验验证，并在多个下游任务中取得了最先进的性能，包括零样本图像 - 文本检索和线性探测。

Aug, 2023

基于图像的语言预训练

本文提出了一种基于图像和语言语境的预训练 (GLIP) 模型，它可以同时学习目标检测和短语 grounding 任务以提升自身性能，并利用海量的图像文本对进行自我训练，从而获得语义丰富的表示。实验结果表明，GLIP 的表示具有较强的零样本迁移能力和准确性，可在各种目标识别任务上实现最先进的结果。

Dec, 2021

基于伪造文本的统一预训练技术用于文本 - 图像人物重识别

该论文介绍了一种面向文本到图像人物重识别任务的统一预训练方法 (UniPT)，通过构建大规模的文本标注人物数据集、使用视觉 - 语言预训练框架来对齐图像和文本模态的特征空间，解决了数据不一致性和训练不一致性的问题。UniPT 在多个数据集上取得了有竞争力的准确率。

Sep, 2023

DreamLIP：长描述文本的语言 - 图像预训练

通过在大规模语言模型中生成详细描述的长标题，我们提出了一种动态采样子标题的方法，以在对比学习框架中构建多个正向对并使用分组损失进行自监督训练，实验证明该方法在多种下游任务上具有明显优势。

Mar, 2024

MLIP：医学语言 - 图像预训练与遮蔽局部表示学习

本文旨在通过引入多对多局部关系建模来增强数据效率，从而更有效地利用有限的医学图像文本数据。我们提出了医学语言 - 图像预训练（MLIP）框架，通过补丁 - 句子匹配的方式更有效地利用图像 - 文本医学数据，同时引入遮蔽对比学习策略和语义完整性估计以减少图像中的冗余并保留其底层语义。我们的评估结果显示，MLIP 在零 / 少样本分类和少样本分割任务中表现出较大的优势。

Jan, 2024