利用早期结果来调控蒸馏中的特征偏倚

Oct, 2023

利用早期结果来调控蒸馏中的特征偏倚

Using Early Readouts to Mediate Featural Bias in Distillation

Rishabh Tiwari, Durga Sivasubramanian, Anmol Mekala, Ganesh Ramakrishnan, Pradeep Shenoy

TL;DR深度网络在现实世界的监督学习任务中往往学习到伪特征 - 标签相关性，而蒸馏中学生模型的表征能力可能比相应的教师模型低，我们提出了一种新颖的早期输出机制，通过使用网络较早层的表征来尝试预测标签，这些早期输出可以自动识别出形式为自信但错误的预测的问题实例或组，利用这些信号在实例级别调节蒸馏损失，不仅能够在基准数据集上大幅改善组公平度度量，还能提高学生模型的整体准确性，此外，我们还进行了次要分析，揭示了特征学习在监督和蒸馏中的作用。

Abstract

deep networks tend to learn spurious feature-label correlations in real-world supervised learning tasks. This vulnerability is aggravated in dist

deep networks spurious feature-label correlations distillation early readout mechanism instance level

发现论文，激发创造

使用未标记的例子进行加权蒸馏

本文探讨了一种主要用于训练深度神经网络的知识蒸馏方法，其使用未标记的数据集作为输入。该方法提出了一种基于 “去偏” 方法的小网络共同训练框架，不需要超参数并且能在普遍学术数据集上展示出明显的改进效果。

Oct, 2022

授课老师在蒸馏中的偏差：违抗是否值得？

通过一系列的实验，我们发现知识蒸馏 (distillation) 在教师网络存在低置信度的点的时候，会使得学生网络的置信度更低，而之后引入知识蒸馏 (loss) 会恢复部分性能，同时我们提供了两种理论视角来理解这种现象，作为特征空间的正则化项和梯度去噪器。

Jan, 2023

多分辨率知识蒸馏用于异常检测

本研究旨在通过将专家网络的特征进行 “蒸馏” 以学习无监督表示，并使用这些特征检测和定位异常区域，证明了结合多个中间提示的蒸馏方法能够更好地利用专家网络的知识，并显著提高在多个数据集上进行异常检测和定位的性能。

Nov, 2020

长尾识别中有效的协作学习

该论文研究类别不平衡问题，提出基于比较两个分类器预测结果的重新加权蒸馏损失，以改善专家之间的知识转移不平衡问题，并结合对比代理任务支路实现特征质量的进一步提升，实验表明所构建模型达到了最优性能。

May, 2023

鲁棒主动蒸馏

通过游戏论的形式，提供了一种无需超参数，能够同时提供准确且充分信息的软标签，从而显著提高了现有主动学习与主动知识蒸馏方法的效果。

Oct, 2022

使用蒸馏技术从噪声标签中学习

提出适用于学习有噪声标签的统一蒸馏框架，利用包括一个小的干净数据集和知识图谱中的标签关系来 “对冲” 学习风险，并提出了一套新的基准数据集，用于评估学习有噪声标签的任务。实证研究证明了我们提出的方法在所有领域中的有效性。

Mar, 2017

基于偏差方差平衡的知识蒸馏软标签优化思考

本文研究了软标签蒸馏对偏差 - 方差平衡的影响，发现软标签的训练在样本层面上影响偏差 - 方差的平衡，并提出了加权软标签方法以适应样本层面的偏差 - 方差平衡，实验证明该方法有效。

Feb, 2021

探索基于样本原型的软标签数据蒸馏对不平衡数据分类的潜力

该研究以实际数据集为基础，探索一种简单的数据精炼技术在原型软标签精炼中的潜力，通过集成优化步骤以提高分类准确性，并对不平衡度不同的数据集进行实验验证，发现该方法在数据精炼和数据增强方面的能力。

Mar, 2024

盲目知识蒸馏用于鲁棒图像分类

该论文提出了一种新的 Teacher-Student 知识蒸馏方法，通过遮盖有关 Teacher 输出中的真实标签以过滤可能损坏的知识来学习具有噪声标签的神经网络。论文中的实验表明，这种方法可以有效地检测训练过程中的过拟合，并改善对 CIFAR-N 数据集中干净和噪声标签的检测。

Nov, 2022

神经特征回归的数据集蒸馏

本文实现了一种基于神经 Feature Regression with Pooling (FRePo) 的 dataset distillation 方法，其在 CIFAR100、Tiny ImageNet 和 ImageNet-1K 上实现了 state-of-the-art 性能，且所需内存和训练时间都比以前的方法快；使用高质量的 distilled data 可大大提高各个 downstream 应用程序的性能，例如 continual learning 和 membership inference defense。

Jun, 2022