DisCo: 用蒸馏对比学习订正轻量模型的自监督学习

ECCVApr, 2021

DisCo: 用蒸馏对比学习订正轻量模型的自监督学习

DisCo: Remedy Self-supervised Learning on Lightweight Models with Distilled Contrastive Learning

Yuting Gao, Jia-Xin Zhuang, Shaohui Lin, Hao Cheng, Xing Sun...

TL;DR本文提出了一种名为 Distilled Contrastive Learning (DisCo) 的方法，通过将主流自监督学习方法中蕴含的最有价值的信息提取出来，然后通过约束学生模型的最终嵌入与教师模型的嵌入保持一致，从而大幅缓解模型规模减小时的性能退化问题，实验结果表明，DisCo 在所有轻型模型上取得了最先进的性能，并且在部署过程中不会引入任何额外的参数。

Abstract

While self-supervised representation learning (SSL) has received widespread attention from the community, recent research argue that its performance will suffer a cliff fall when the model size decreases. The current method mainly relies on contrastive learning to train the network and

self-supervised representation learning distilled contrastive learning teacher's knowledge lightweight models distilling bottleneck

发现论文，激发创造

DisCo: 基于蒸馏的学生模型联合训练用于半监督文本挖掘

DisCo 使用知识蒸馏从一个大的 PLM 中生成小的学生模型，采用一种新颖的共训练技术来优化多个小学生模型，以促进它们的半监督学习效果，并在半监督文本分类和摘要提取任务中得到了比线性基准模型 7.6 倍更小和 4.8 倍更快的推理速度，同时保持可比的性能。

May, 2023

利用关系知识蒸馏提升对比学习

通过引入异构的 teacher 和 relation-wise 对比学习，我们成功地解决了在轻量级模型中进行 instance-wise 对比时在语义空间中容易崩溃的问题，并通过 AlexNet 线性评估验证了该方法的有效性，达到了接近于有监督学习的 50.5% 的水平。

Dec, 2021

高效低计算自监督视觉模型的简单配方

本文介绍了一种简单的自监督蒸馏技术，可以培训高性能低计算的神经网络，RoB 通过从大型自监督教师模型到小型学生模型的知识蒸馏来实现，适用于许多架构。实验结果表明 RoB 在 ImageNet 数据集上表现良好，且在五个下游转移任务上的表现与监督蒸馏的结果相当或更好。

Jan, 2023

Retro: 用于轻量级模型的自监督学习中的高效嵌入蒸馏的教师投影头的重复利用

使用自监督学习 (SSL) 和对比约束以及一致性约束，从大量无标签数据中提取有效表示，并通过重用教师的投影头来改进轻量级模型，实验证明在所有轻量级模型上取得了显著的改进

May, 2024

自监督数据集压缩：压缩就是你所需的

基于模型信息性对原始数据集预训练的压缩阶段进行自我监督压缩，并利用大型预训练模型的潜力，提出了 SC-DD 框架，相对传统的监督学习方案，它在数据压缩和恢复方面带来了更多信息的压缩和恢复能力，并在 CIFAR-100、Tiny-ImageNet 和 ImageNet-1K 数据集上表现出了显著的优越性。

Apr, 2024

SEED: 自监督蒸馏用于视觉表征

本文主要介绍一种针对小模型的自监督学习方法 ——SElf-SupErvised Distillation (SEED), 提出将大型网络的知识通过自监督方式传递到小型网络中来提高性能，实验证明 SEED 可显著提升小型网络在下游任务上的表现。

Jan, 2021

知识蒸馏与自监督相遇

本文介绍了一种新的知识蒸馏方法，使用自我监督信号作为辅助任务来提取自预训练教师模型中的丰富知识，并将其成功地传递到学生网络中，从而实现了在各种基准测试下的表现优异。

Jun, 2020

DistillCSE：基于蒸馏的对比学习用于句子嵌入

本文提出了 DistillCSE 框架，该框架基于自学习范式和知识蒸馏实现对比学习。通过使用基础模型来提供额外的监督信号，DistillCSE 具有自我增强的特点，可以通过知识蒸馏学习到更强的模型。通过进一步的定量分析，本文发现标准知识蒸馏存在教师模型 logits 的相对大方差，从而导致了严重的过拟合问题。为了缓解高方差引发的问题，本文提出了两种简单而有效的解决方案：一种是 Group-P 混洗策略作为隐式正则化方式，另一种是平均来自多个教师组件的 logits。在标准基准测试上的实验证明了 DistillCSE 的优越性，超越了许多强基线方法，并获得了新的最先进表现。

Oct, 2023

CoLLD: 对比层间蒸馏用于压缩多语言预训练语音编码器

大规模无监督预训练语音编码器优于传统方法在语音识别和翻译任务中。然而，由于开发这些大型模型的高成本，构建新的编码器用于新任务并将其部署到设备应用上是不可行的。因此，先前的研究提出了模型压缩方法来解决该问题，但这些方法主要关注较小的模型和较不现实的任务。因此，我们提出了一种新的知识蒸馏方法，即对比层间蒸馏（CoLLD），通过利用掩码预测和对比学习来训练学生模型以模仿大型教师模型的行为，从而压缩预训练语音编码器。CoLLD 在多语言语音到文本翻译和识别基准测试中优于先前的方法，缩小了小型和大型模型之间的差距。

Sep, 2023

从教师那里学习度量：用于图像嵌入的紧凑网络

本文提出使用网络蒸馏来高效计算小型网络产生的图像嵌入，通过构建两个新的损失函数模拟深度教师网络向小型学生网络通信的机制，在多个数据集上验证我们的方法，得出小型学生网络计算的嵌入明显优于使用相似大小的标准网络计算的结果。其中在可移动设备上使用的 MobileNet-0.25 产生了 44.6% 的 Recall@1 结果。同时，研究了蒸馏嵌入的各种方面，包括提示和注意力层，半监督学习以及不同质量的蒸馏。

Apr, 2019