对比学习中归纳偏置的理论研究
本文指出只考虑增强方法和对比损失等因素不能充分解释对比学习的成功,需要考虑算法和函数类的归纳偏差,特别是对于线性表示,加入函数类的归纳偏差可以让对比学习在更宽松的条件下工作。
Feb, 2022
本研究对自监督学习中采用对比学习方法的常见预训练任务及各种方法进行了广泛的回顾,并通过图像分类,目标检测和动作识别等多个下游任务的性能比较,探讨了当前方法的限制以及未来发展方向。
Oct, 2020
使用 InfoNCE 系列的 feedforward 模型通过隐式反转观察数据的基础生成模型来实现使学习到的表示方法适用于大量下游任务的目标,这种理论强调了对比学习,生成建模和非线性独立成分分析之间的基本联系,为推导出更有效的对比损失提供了理论基础。
Feb, 2021
本文研究了自监督学习在四个不同的大规模数据集上的对比学习方法,通过数据量、数据领域、数据质量和任务粒度,得出了有关成功自监督学习所需条件的新见解,其中包括:(i) 除 500k 张图像外,额外的预训练数据的收益有限;(ii) 添加来自另一个领域的预训练图像不会产生更通用的表示。(iii) 比较学习在细粒度的视觉分类任务中远远落后于监督学习。
May, 2021
本文通过分析其特征学习过程,形式化研究了对比学习如何学习神经网络的特征表征。通过证明使用 ReLU 网络的对比学习可以如果采用适当的增强来稀疏表示,我们提出了一种名为特征解耦的基本原理来解释增强的效果,并在实践中验证了特征解耦原理与对比学习的基本机制相匹配。
May, 2021
本文探讨了如何通过核心对比学习框架(KCL)的统计依赖性视角计算已学习的表示的相似性结构并研究了该框架的理论特性,包括分类错误上界的新证明和通向下游分类任务的 KCL 泛化性能保证。
Apr, 2023
本文提出了一种理论框架以分析对比学习的算法,并引入潜在类别假设,该框架使我们能够在平均分类任务上证明学习表示的性能。同时,该文还表明,学习表示可以降低下游任务的(标记)样本复杂度。
Feb, 2019
本文针对对比度学习的隐私问题进行了首次隐私分析,实验结果表明,相对于监督学习模型,对比学习模型更易受到属性推断攻击,但其会导致的成员推断攻击风险较小。为解决这一问题,提出了一种新的隐私保护对比度学习机制 Talos,通过对抗式训练成功地缓解了属性推断威胁,同时保持了其成员隐私和模型效用。
Feb, 2021
本文研究自我监督对比学习中的两个关键因素:批大小和预设任务,并提出了一种自适应的批融合技术,通过降维和重构批数据,使以前孤立的个体数据能够通过嵌入层在批内进行通信,随着训练进行,自适应地增强自我监督特征编码能力。通过在 ImageNet-1k 上进行线性分类测试,实证结果表明我们的方法在公平比较下实现了最先进的性能。在 ImageNet-100 上,相对于原始性能,top1 最多提高了 1.25%。我们认为该方法可能有助于数据驱动的自我监督学习研究的进展,并为该领域带来新的视角。
Nov, 2023
该篇论文从训练算法、预训练数据集和最终任务的角度分析了自监督表示学习的最成功和最流行的变体 - 对比式学习,探究了各种问题,包括自监督模型与监督模型的性能比较,用于评估的当前基准,以及预训练数据对最终任务性能的影响。
Mar, 2021