视觉表示对比学习的简单框架
本文提出了一种名为 Speech SimCLR 的新自监督学习方法,通过对原始语音和其频谱图进行增强,结合对比损失最大化潜在空间中不同增强样本的一致性以及输入表示的重构损失函数进行训练,取得了在语音情感识别和语音识别上的良好结果。
Oct, 2020
本文基于 SimCLR 的前期工作,提出了适用于音频数据的各种数据增强方案,并调查了它们对预测性能的影响,同时证明了采用时频音频特征训练,在监督和对比损失同时约束下的模型可以获得优秀的音频表示。在少量标注数据的情况下,该方法明显地改善了预测性能,同时比自监督训练更快地收敛并具有更好的表示能力。
Oct, 2020
通过合成图像和合成标题无需真实数据地学习视觉表征,SynCLR 方法在对合成图像进行对比学习的基础上,将得到的表征在多个下游任务中转移,与其他通用视觉表征学习算法相比,在图像分类任务中表现出色;此外,在诸如语义分割等密集预测任务中,SynCLR 比以往自监督方法有显著优势。
Dec, 2023
本文介绍了一种基于 SimCLR 的 CLMR 框架,用于音乐领域的自监督、对比学习,采用一系列基于音频数据的增强技术,可以在无需标记的情况下学习有用的音乐表示,并在 MagnaTagATune 和 Million Song 数据集上进行了评估,在小型标记数据集下具有较高的精度。
Mar, 2021
通过解决先验任务从无标签数据集中选择和比较 anchor、negative 和 positive 特征来学习有用的表示,我们提出了一个概念性框架,该框架从数据增强管道、编码器选择、表示提取、相似性度量和损失函数五个方面表征对比自监督学习方法。我们分析了三种主要的 CSL 方法 - AMDIM、CPC 和 SimCLR-,并表明它们是这个框架下的特殊情况。通过设计 Yet Another DIM(YADIM),我们展示了我们框架的效用,该方法在 CIFAR-10、STL-10 和 ImageNet 上取得了竞争性结果,并且对编码器的选择和表示提取策略更具鲁棒性。为了支持正在进行的 CSL 研究,我们发布了此概念框架的 PyTorch 实现,以及 AMDIM、CPC(V2)、SimCLR、BYOL、Moco(V2)和 YADIM 的标准化实现。
Aug, 2020
提出了一种基于弱监督对比学习的框架 (WCL),该框架使用两个投影头进行正则的实例区分任务,一头使用基于图形的方法找到相似的样本并生成弱标签,另一头使用这些弱标签进行有监督的对比学习任务,以拉近相似图像之间的距离。WCL 旨在解决现有对比学习框架中的类冲突问题,并在不同的数据集上提高了自监督表示品质,尤其是在半监督学习中达到了新的最优结果。
Oct, 2021
在计算机视觉中,自监督对比学习通过使同一图像的不同视图具有类似的表示来实现。我们提出了 SAMCLR,它是 SimCLR 的一个附加部分,使用 SAM 将图像分割成语义区域,然后从同一区域采样两个视图。初步结果表明,在 Cityscapes 和 ADE20K 上进行预训练,然后在 CIFAR-10、STL10 和 ImageNette 上进行分类评估时,SAMCLR 不仅与 SimCLR、DINO 和 MoCo 相当,而且往往明显优于它们。
Oct, 2023
NNCLR 是一种基于最近邻对比学习的自监督学习算法,将数据集中最近邻作为正样本而不是图像的不同视角,能够提供比预定义的变换更多的语义变化,达到了在 ImageNet 分类和迁移学习基准测试中超越现有先进方法的效果。此外,该方法的鲁棒性能更好,对于数据变换的依赖性更小。
Apr, 2021
本文研究了自监督学习在四个不同的大规模数据集上的对比学习方法,通过数据量、数据领域、数据质量和任务粒度,得出了有关成功自监督学习所需条件的新见解,其中包括:(i) 除 500k 张图像外,额外的预训练数据的收益有限;(ii) 添加来自另一个领域的预训练图像不会产生更通用的表示。(iii) 比较学习在细粒度的视觉分类任务中远远落后于监督学习。
May, 2021
本论文引入了 LeOCLR(Leveraging Original Images for Contrastive Learning of Visual Representations),一种新的实例辨识方法和适应的损失函数,以保证正样本之间的共享区域在语义上是正确的,实验证明我们的方法在不同数据集上始终比基线模型改进了表征学习。 例如,在线性评估中,我们的方法在 ImageNet-1K 上比 MoCo-v2 提高了 5.1%,在迁移学习任务中也超过了其他几种方法。
Mar, 2024