对比学习的记忆特性
SimCLR 是一种简单的对比学习框架,通过定义有效的预测任务、引入可学习的非线性变换以及使用大型批次和更多的训练步骤来提高对比学习的效果,在 ImageNet 数据集上实现了比以往方法更好的自监督和半监督学习结果。
Feb, 2020
基于深度学习和深度神经网络的记忆现象对模型泛化性、安全性和隐私造成了影响,并提出了系统性框架以及评估方法,通过综合文献回顾探索了深度神经网络记忆行为对安全隐私的影响,还介绍了由记忆引起的隐私漏洞,忽略现象,以及它们在噪声标签学习、隐私保护和模型增强等应用中的潜在机制,为加强人工智能发展并解决重要的伦理问题提供了独特的认识。
Jun, 2024
本文研究深度学习中记忆化的作用,探讨了容量,泛化,对抗鲁棒性的联系。作者的实验表明,深度神经网络在优化噪声数据和真实数据时存在数量上的差异,但经过适当的正则化调整(如 dropout),我们可以降低其在噪声数据集上的训练性能,同时不影响在真实数据上的泛化能力。研究结果表明,数据集本身在决定记忆化程度时具有重要作用,而基于梯度优化方法的深度网络的泛化性能不太可能由数据集独立的有效容量来解释。
Jun, 2017
本文提出了一种名为 Speech SimCLR 的新自监督学习方法,通过对原始语音和其频谱图进行增强,结合对比损失最大化潜在空间中不同增强样本的一致性以及输入表示的重构损失函数进行训练,取得了在语音情感识别和语音识别上的良好结果。
Oct, 2020
本文介绍了一种基于 SimCLR 的 CLMR 框架,用于音乐领域的自监督、对比学习,采用一系列基于音频数据的增强技术,可以在无需标记的情况下学习有用的音乐表示,并在 MagnaTagATune 和 Million Song 数据集上进行了评估,在小型标记数据集下具有较高的精度。
Mar, 2021
提出了一种新的理论框架来理解对比自监督学习方法,该方法采用双重 ReLU 网络(例如 SimCLR)。我们证明了每个 SGD 更新中的权重是由协方差算子更新的,并进一步说明了协方差算子的作用和应用。通过建立层次潜变量树模型并证明深度 ReLU 网络的隐藏层学习了该模型的潜变量,我们总结了通过对比自监督学习的初始随机选择法放大而形成的层次化特征。
Oct, 2020
本文提出了解决自监督对比学习中的批处理大小等参数问题的一种简单有效的基准方法(DCL),并对其进行了在多种基准测试中的复现和实时检验,最终实现了较少受亚优化超参数影响且性能不错的对比学习方法。
Oct, 2021
我们通过 SimCLR 和多视图互信息最大化的角度研究了联邦环境中的对比学习,其中发现了对比表示学习与用户验证之间的关联;通过在每个客户端的本地 SimCLR loss 加上用户验证损失,我们恢复了全局多视图互信息的下界。为了适应在客户端存在一些标记数据的情况,我们将 SimCLR 变体扩展到联邦半监督设置。我们发现可以通过两个改变来获得受监督的 SimCLR 目标:a) 对比损失是在具有相同标签的数据点之间计算的,b) 我们需要一个额外的辅助头部,从任一视图中预测正确的标签。除了我们提出的 SimCLR 扩展,我们还研究了不同非独立同分布性的来源对联邦无监督学习通过全局互信息最大化的性能的影响;我们发现全局目标对于某些非独立同分布性的来源是有益的,但对于其他来源可能是有害的。我们在各种任务中对我们提出的扩展进行了实证评估,以验证我们的论点,并进一步证明我们的修改方法推广到其他预训练方法。
May, 2024
本文提出 Self-Damaging Contrastive Learning (SDCLR) 的概念,通过一个动态的自我竞争模型来平衡长尾数据的表示学习,以实现对无监督训练的快速部署。
Jun, 2021
本文基于 SimCLR 的前期工作,提出了适用于音频数据的各种数据增强方案,并调查了它们对预测性能的影响,同时证明了采用时频音频特征训练,在监督和对比损失同时约束下的模型可以获得优秀的音频表示。在少量标注数据的情况下,该方法明显地改善了预测性能,同时比自监督训练更快地收敛并具有更好的表示能力。
Oct, 2020