SEED: 自监督蒸馏用于视觉表征
本文介绍了一种新的知识蒸馏方法,使用自我监督信号作为辅助任务来提取自预训练教师模型中的丰富知识,并将其成功地传递到学生网络中,从而实现了在各种基准测试下的表现优异。
Jun, 2020
本文介绍了一种简单的自监督蒸馏技术,可以培训高性能低计算的神经网络,RoB 通过从大型自监督教师模型到小型学生模型的知识蒸馏来实现,适用于许多架构。实验结果表明 RoB 在 ImageNet 数据集上表现良好,且在五个下游转移任务上的表现与监督蒸馏的结果相当或更好。
Jan, 2023
通过对自我监督学习中的对比学习方法进行改进,引入了一种使用负样本的软相似度而不是二进制关系的无监督学习算法,可更好地处理不平衡的无标签数据并获得与最先进模型类似的结果。
Dec, 2020
该论文提出了一种两阶段的学习方法,通过最大化特征嵌入的熵来创造一个最佳输出流形,并通过自我监督的双胞胎约束流形,最小化特征嵌入的熵来提高深度神经网络在少样本学习任务中的表示能力。
Jun, 2020
本文提出了一种自监督增强的任务,通过辅助分类器在分层中间特征图中生成多样化的自监督知识,并执行一对一的转移来全面教授学生网络,从而改善表示能力而不失去正常分类能力。在多个网络对中,本方法都显著超过了之前的最佳结果,平均改进了 2.56%(CIFAR-100)和 0.77%(ImageNet)。
Jul, 2021
本文提出了 DistillCSE 框架,该框架基于自学习范式和知识蒸馏实现对比学习。通过使用基础模型来提供额外的监督信号,DistillCSE 具有自我增强的特点,可以通过知识蒸馏学习到更强的模型。通过进一步的定量分析,本文发现标准知识蒸馏存在教师模型 logits 的相对大方差,从而导致了严重的过拟合问题。为了缓解高方差引发的问题,本文提出了两种简单而有效的解决方案:一种是 Group-P 混洗策略作为隐式正则化方式,另一种是平均来自多个教师组件的 logits。在标准基准测试上的实验证明了 DistillCSE 的优越性,超越了许多强基线方法,并获得了新的最先进表现。
Oct, 2023
本文提出了一种名为 Distilled Contrastive Learning (DisCo) 的方法,通过将主流自监督学习方法中蕴含的最有价值的信息提取出来,然后通过约束学生模型的最终嵌入与教师模型的嵌入保持一致,从而大幅缓解模型规模减小时的性能退化问题,实验结果表明,DisCo 在所有轻型模型上取得了最先进的性能,并且在部署过程中不会引入任何额外的参数。
Apr, 2021
本文提出了一种基于单阶段在线知识蒸馏的自我监督学习法 Distill-on-the-Go (DoGo),采用深度互联策略,通过对齐两个模型的相似度得分的 softmax 概率来提供更好的表征质量,实验结果表明,该方法在存在噪声和有限标签以及区分数据方面具有显著性能提升和泛化能力
Apr, 2021
提出了一种名为 “自蒸馏” 的卷积神经网络训练框架,通过将网络大小缩小而不是扩大来显著提高卷积神经网络的性能(准确性)。它与传统的知识蒸馏不同,后者是将预训练的教师神经网络的输出作为 softmax 层输出的近似值强制学生神经网络去逼近。该框架将知识内化到网络本身,对深度方面的可伸缩推理提供了灵活性,能够在资源有限的边缘设备上运行。
May, 2019