May, 2024

超越数据不平衡的泛化:对 CLIP 进行可控研究以获取可转移的洞见

TL;DR研究发现 CLIP 预训练在面对数据不平衡时相比于监督学习表现出明显的鲁棒性和学习泛化能力。通过对各种潜在因素的控制实验研究,揭示了 CLIP 预训练的伪任务形成了一个动态分类问题,在训练中只包含部分类别,从而消除了主导类别的偏差且隐含地实现了学习信号的平衡。此外,CLIP 的鲁棒性和区分能力随着更具描述性的语言监督、更大规模的数据以及更广泛的开放世界概念的使用而提高,而这些在监督学习中是无法实现的。该研究不仅揭示了 CLIP 在数据不平衡情况下的泛化机制,还为研究界提供了有价值的启示。通过监督学习和自监督学习验证了这些发现,使得在不平衡数据上训练的模型能够在多样化的识别任务上达到 CLIP 级别的性能。