Harmony: 一种联合自监督和弱监督框架，用于学习通用的视觉表示

May, 2024

Harmony: 一种联合自监督和弱监督框架，用于学习通用的视觉表示

Harmony: A Joint Self-Supervised and Weakly-Supervised Framework for Learning General Purpose Visual Representations

Mohammed Baharoon, Jonathan Klein, Dominik L. Michels

TL;DR本研究中，我们提出了一种名为 Harmony 的框架，它结合了视觉 - 语言训练和辨别性自监督以及生成性自监督，以学习能够在视觉下游任务中被泛化的视觉特征。我们全面评估了 Harmony 在各种视觉下游任务上的性能，并发现它在 ImageNet-1k 上的微调和零样本分类、ADE20K 上的语义分割以及 MS-COCO 上的目标检测和实例分割等任务中明显优于基线 CLIP 和先前领先的联合自监督和弱监督方法 MaskCLIP 和 SLIP。与其他自监督学习方法（如 iBOT 和 MAE）相比，我们还展示了 Harmony 在所有评估任务上的优越性能。

Abstract

vision-language contrastive learning frameworks like CLIP enable learning representations from natural language supervision, and provide strong zero-shot classification capabilities. However, due to the nature of the supervisory signal in these paradigms, they lack the ability to learn

vision-language contrastive learning zero-shot classification self-supervised learning dense prediction tasks harmony

发现论文，激发创造

稳健的跨模态表示学习与渐进式自蒸馏

通过交叉模态对比学习以及软图像 - 文本对齐等方法，改进了 CLIP 模型，在处理带有噪声的数据集时能更加高效地学习出具有鲁棒性的表示。经过对 14 个基准数据集的广泛评估，该方法在多种设置下表现均优于 CLIP，并且没有增加计算成本。此外，该方法还在自然分布偏移的鲁棒性测试中表现更好。

Apr, 2022

SLIP: 自监督与语言图像预训练的结合

本文提出 SLIP，结合基于自监督的学习和 CLIP 预训练的多任务学习框架，通过在 ImageNet 和其他数据集上进行多个实验，发现 SLIP 表现出更好的性能，同时获得比基于自监督学习和语言监督学习更高的准确性提高。

Dec, 2021

视觉语言预训练的改进基线

本文中，我们提出了一些基线模型，将对比学习与最近的自监督学习进展相结合，用于生成多模态表示。除了使用对比性损失，我们还使用了已被证明对视觉自监督学习成功的损失函数来对齐图像和文本模态。而使用更有效的数据增广技术可以提高模型性能，使我们在四个标准数据集上获得了最先进的性能。

May, 2023

CLIP-S$^4$: 语言引导的自监督语义分割

本文通过自监督学习及视觉 - 语言模型，提出了 CLIP-S4 方法，该方法可以在不需要人类注释和未知类信息的情况下进行各种语义分割任务，包括无监督、迁移学习和语言驱动分割，并在未知类别识别上表现出良好的性能优势。

May, 2023

语义组合提升视觉 - 语言对比学习

通过引入语义组合样本，我们通过一个简单的技术（称为 CLIP-C），显著改善了零样本图像分类和跨模态检索的能力，而不需要额外的计算开销或模型参数增加。

Jul, 2024

弱监督对比学习

提出了一种基于弱监督对比学习的框架 (WCL)，该框架使用两个投影头进行正则的实例区分任务，一头使用基于图形的方法找到相似的样本并生成弱标签，另一头使用这些弱标签进行有监督的对比学习任务，以拉近相似图像之间的距离。WCL 旨在解决现有对比学习框架中的类冲突问题，并在不同的数据集上提高了自监督表示品质，尤其是在半监督学习中达到了新的最优结果。

Oct, 2021

UniFine: 一种用于零样本视觉 - 语言理解的统一和细粒度方法

本文提出了一个统一的框架，以利用精细的信息实现零样本视觉语言学习，涵盖了多个任务，如视觉问题回答，SNLI-VE 和 VCR，并证实了该方法的有效性和泛化性。

Jul, 2023

图像 - 文本 - 标签空间统一的对比学习

该研究提出了一种新型的学习范式 - 统一对比学习（UniCL），通过将人类标注的图像标签数据和网络爬取的图像文本数据相结合，学习出在零样本，线性探测，完全微调和迁移学习方案中具有语义丰富而有区分性的表示。在各种基准测试中，UniCL 的性能均优于语言图像对比学习和监督学习方法，并且在纯图像标签数据上，其表现也不亚于监督学习方法。

Apr, 2022

无处不在的监管：一种数据高效的对比语言图像预训练范式

本文提出一种用于 Contrastive Language-Image Pre-training (CLIP) 的新的训练方法，Data efficient CLIP (DeCLIP)，通过充分利用图像 - 文本对之间的广泛监督来更有效地学习通用视觉特征，在使用较少数据的情况下实现 60.4% 的零样本 top1 准确率，并在转化到下游任务时优于常规 CLIP 模型。

Oct, 2021

面向对齐一致性的零样本视频分类表示学习

该论文提出了一个端到端的框架，用于在被观察和未被观察的类别上均保留对比和一致性特性的视觉 - 语义表示，通过同时进行对齐和鼓励学习特征分布均匀的监督式对比损失来促进模型的泛化能力，实验结果表明该方法在 UCF101 和 HMDB51 上的相对改进分别达到 28.1% 和 27.0%。

Mar, 2022