简单蒸馏基线模型用于提高小型自监督模型
针对数据集蒸馏的问题,我们提出了用合成标签来训练模型,比基于图像的方法更为有效;我们引入了更加鲁棒和灵活的元学习算法以及一种基于凸优化层的一阶策略,这种新算法可以提高模型的性能,并且可兼容各个优化器及不同的神经结构。我们的研究发现,标签蒸馏还能夸数据集应用,例如只通过合成标签的英文字母来训练以学习日文字母识别。
Jun, 2020
本文主要介绍一种针对小模型的自监督学习方法——SElf-SupErvised Distillation (SEED), 提出将大型网络的知识通过自监督方式传递到小型网络中来提高性能,实验证明SEED可显著提升小型网络在下游任务上的表现。
Jan, 2021
本文提出了一种基于单阶段在线知识蒸馏的自我监督学习法Distill-on-the-Go (DoGo),采用深度互联策略,通过对齐两个模型的相似度得分的softmax概率来提供更好的表征质量,实验结果表明,该方法在存在噪声和有限标签以及区分数据方面具有显著性能提升和泛化能力
Apr, 2021
本文提出一种无需蒸馏信号即可训练自我监督小模型的方法,验证了小模型可以完成预文本任务且避免过拟合,但会普遍遭受过聚类问题,并提出了多种缓解过聚类的假设,通过验证技术的组合可在五种小型结构上达到基线性能的改进。
Jul, 2021
该论文提出一种高效自蒸馏方法,名为 Zipf's Label Smoothing(Zipf的LS),可以提高预测准确性,使用 ResNet50 在 INAT21 细粒度分类数据集上,我们的技术实现比基准准确性提高了 +3.61%,并且比先前的标签平滑或自我蒸馏策略提高了 0.88%。
Jul, 2022
本文提出了自蒸馏(self-distillation)作为进一步预训练阶段的正则化方法来解决Vision Transformer模型在目标未标记数据上预训练的过拟合问题,最终在图像分类和文本分类任务中优于相关基线。
Sep, 2022
本文提出SMC-2方法,结合了一致性正则化和自我蒸馏概念,旨在改善模型的泛化能力和对噪声标签的鲁棒性,实验证明在各种模型上表现优异,并能减轻标签噪音干扰导致的泛化能力下降问题。
Apr, 2023
我们提出了一种针对小模型的训练方法,不需要吸收预训练的成本,却能获得相同的性能,并且通过知识蒸馏与对比学习的连接,能够有效地降低计算成本,提高训练速度,同时通过数据增强进一步改善性能。
Apr, 2024
基于模型信息性对原始数据集预训练的压缩阶段进行自我监督压缩,并利用大型预训练模型的潜力,提出了SC-DD框架,相对传统的监督学习方案,它在数据压缩和恢复方面带来了更多信息的压缩和恢复能力,并在CIFAR-100、Tiny-ImageNet和ImageNet-1K数据集上表现出了显著的优越性。
Apr, 2024