May, 2024

Harmony: 一种联合自监督和弱监督框架,用于学习通用的视觉表示

TL;DR本研究中,我们提出了一种名为 Harmony 的框架,它结合了视觉 - 语言训练和辨别性自监督以及生成性自监督,以学习能够在视觉下游任务中被泛化的视觉特征。我们全面评估了 Harmony 在各种视觉下游任务上的性能,并发现它在 ImageNet-1k 上的微调和零样本分类、ADE20K 上的语义分割以及 MS-COCO 上的目标检测和实例分割等任务中明显优于基线 CLIP 和先前领先的联合自监督和弱监督方法 MaskCLIP 和 SLIP。与其他自监督学习方法(如 iBOT 和 MAE)相比,我们还展示了 Harmony 在所有评估任务上的优越性能。