Dec, 2023

对分布偏移下对比学习和自训练的互补优势

TL;DR自学习和对比学习已经成为将无标签数据纳入研究中的领先技术,无论是在分布偏移(无监督领域适应)的情况下还是在不存在分布偏移(半监督学习)时。然而,尽管这些技术的流行和兼容性,它们在组合中的有效性尚未被探究。在本文中,我们对这种组合进行了系统的实证研究,发现在领域适应设置中,自学习和对比学习可以提供显著的互补优势;而在半监督学习设置中,令人惊讶的是,两种方法并不具有协同效应。通过八个分布偏移数据集的实验(如 BREEDs,WILDS),我们证明了综合方法比任一方法都可获得 3-8%的更高准确度。然后,我们在分布偏移的简化模型中对这些技术进行了理论分析,证明了对比学习产生的特征可以为自学习提供良好的初始化,进而增强收益并实现最佳性能,即使单独应用方法可能会失败。