简单蒸馏基线模型用于提高小型自监督模型

Jun, 2021

简单蒸馏基线模型用于提高小型自监督模型

Simple Distillation Baselines for Improving Small Self-supervised Models

Jindong Gu, Wei Liu, Yonglong Tian

TL;DR本文介绍了通过蒸馏算法改进小型自监督模型的基础方法，并提出了一种离线蒸馏和在线蒸馏的基线方法，取得了新的最优表现。

Abstract

While large self-supervised models have rivalled the performance of their supervised counterparts, small models still struggle. In this report, we explore simple baselines for improving small self-supervised models

发现论文，激发创造

数据集蒸馏: 学习标签而非图像

针对数据集蒸馏的问题，我们提出了用合成标签来训练模型，比基于图像的方法更为有效；我们引入了更加鲁棒和灵活的元学习算法以及一种基于凸优化层的一阶策略，这种新算法可以提高模型的性能，并且可兼容各个优化器及不同的神经结构。我们的研究发现，标签蒸馏还能夸数据集应用，例如只通过合成标签的英文字母来训练以学习日文字母识别。

Jun, 2020

SEED: 自监督蒸馏用于视觉表征

本文主要介绍一种针对小模型的自监督学习方法——SElf-SupErvised Distillation (SEED), 提出将大型网络的知识通过自监督方式传递到小型网络中来提高性能，实验证明SEED可显著提升小型网络在下游任务上的表现。

Jan, 2021

自我监督学习中在线知识蒸馏

本文提出了一种基于单阶段在线知识蒸馏的自我监督学习法Distill-on-the-Go (DoGo)，采用深度互联策略，通过对齐两个模型的相似度得分的softmax概率来提供更好的表征质量，实验结果表明，该方法在存在噪声和有限标签以及区分数据方面具有显著性能提升和泛化能力

Apr, 2021

关于小型自监督对比模型的有效性研究: 不使用蒸馏信号

本文提出一种无需蒸馏信号即可训练自我监督小模型的方法，验证了小模型可以完成预文本任务且避免过拟合，但会普遍遭受过聚类问题，并提出了多种缓解过聚类的假设，通过验证技术的组合可在五种小型结构上达到基线性能的改进。

Jul, 2021

Zipf 标签平滑的高效单次自蒸馏

该论文提出一种高效自蒸馏方法，名为 Zipf's Label Smoothing（Zipf的LS），可以提高预测准确性，使用 ResNet50 在 INAT21 细粒度分类数据集上，我们的技术实现比基准准确性提高了 +3.61％，并且比先前的标签平滑或自我蒸馏策略提高了 0.88％。

Jul, 2022

Transformer进一步预训练的自蒸馏方法

本文提出了自蒸馏（self-distillation）作为进一步预训练阶段的正则化方法来解决Vision Transformer模型在目标未标记数据上预训练的过拟合问题，最终在图像分类和文本分类任务中优于相关基线。

Sep, 2022

多渠道的自律

本文提出SMC-2方法，结合了一致性正则化和自我蒸馏概念，旨在改善模型的泛化能力和对噪声标签的鲁棒性，实验证明在各种模型上表现优异，并能减轻标签噪音干扰导致的泛化能力下降问题。

Apr, 2023

DMT：多个自监督教师进行的全面蒸馏

通过利用多个自监督模型的优势，压缩预训练模型，并在分类任务和密集任务中显著提高性能。

Dec, 2023

关于蒸馏的令人惊讶的疗效作为替代预训练小模型的研究

我们提出了一种针对小模型的训练方法，不需要吸收预训练的成本，却能获得相同的性能，并且通过知识蒸馏与对比学习的连接，能够有效地降低计算成本，提高训练速度，同时通过数据增强进一步改善性能。

Apr, 2024

自监督数据集压缩：压缩就是你所需的

基于模型信息性对原始数据集预训练的压缩阶段进行自我监督压缩，并利用大型预训练模型的潜力，提出了SC-DD框架，相对传统的监督学习方案，它在数据压缩和恢复方面带来了更多信息的压缩和恢复能力，并在CIFAR-100、Tiny-ImageNet和ImageNet-1K数据集上表现出了显著的优越性。

Apr, 2024