知识蒸馏传递诱导偏置

May, 2020

Transferring Inductive Biases through Knowledge Distillation

Samira Abnar, Mostafa Dehghani, Willem Zuidema

TL;DR该研究探讨了在模型之间利用知识蒸馏的方法将归纳偏差迁移的可行性和效果，以不同归纳偏差的模型（LSTMs vs. Transformers 和 CNNs vs. MLPs）为例，研究了归纳偏差对模型收敛结果的影响以及知识蒸馏的迁移效果。

Abstract

Having the right inductive biases can be crucial in many tasks or scenarios where data or computing resources are a limiting factor, or where training data is not perfectly representative of the conditions at test time. However, defining, designing and efficiently adapting

inductive biases knowledge distillation lstms transformers cnns

发现论文，激发创造

提炼归纳偏见：超越模型压缩的知识蒸馏

通过集成式蒸馏方法从轻量级教师模型中蒸馏归纳偏差，我们介绍了一种创新的蒸馏方法，以支持视觉转换和文本领域之间的统一信息处理，提高了学生性能，并减轻了计算负担和提高了效率。

Sep, 2023

共同指导：跨归纳偏差蒸馏

该研究提出了一种新颖的基于蒸馏的方法，用于训练视觉 transformers，并取得了比先前同等架构的 transformers 更好的性能，该方法的关键是使用具有不同归纳偏差的轻量级 teachers 来共同指导 student transformer，从而实现不同的知识交汇和提升。

Jun, 2021

通过知识选择改进预训练语言模型的知识蒸馏

本文提出了一种基于演员 - 评论家方法的知识蒸馏框架，旨在从教师模型中选择适当的知识来训练学生模型，实验结果表明该方法在 GLUE 数据集上优于常规基线模型。

Feb, 2023

知识蒸馏对迁移学习的影响

在本研究中，我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构，称为 TL + KD，并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明，在微调过程中，使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能，同时研究了不同场景下的性能表现。

Oct, 2022

InBiaseD: 通过感知形状来改善归纳偏置蒸馏从而提高泛化性能和鲁棒性

提出了 InBiaseD 来提取感知偏倚和为神经网络带来形状意识。该方法通过偏差对齐目标来强制学习更通用的表示，从而减轻了深度神经网络中的一些缺点，如易受损的数据。 InBiaseD 通过无缝插入现有的对抗训练方案，对改善分类和鲁棒性之间的平衡起到了帮助的作用。

Jun, 2022

高效稳健的粒子射流标记：知识蒸馏在 LHC 中的应用

利用知识蒸馏提高学生模型对大型强子对撞机上轰击粒子分类任务的性能，并通过使用具有洛伦兹对称的强归纳偏差的教师模型，引入相同的归纳偏差以提高模型的鲁棒性

Nov, 2023

深度学习中的知识蒸馏及其应用

通过使用知识蒸馏技术，从大模型 (教师模型) 中提取信息，训练小模型 (学生模型) 可以解决将大型深度学习模型部署在移动设备和嵌入式设备上的问题。本文提出了一种基于蒸馏度量的比较不同知识蒸馏算法性能的新指标，并通过对知识蒸馏技术应用于深度学习模型进行调查，得出了一些有趣的结论。

Jul, 2020

知识蒸馏的有效性

本研究评估了知识蒸馏的有效性以及它对学生和教师体系的依赖性。发现较精确的教师并不一定是好教师，且大型模型并不总是更好的教师，这导致了容器不匹配的问题，本研究表明教师的训练中止可以缓解这种效应，这些结果适用于各种数据集和模型。

Oct, 2019

变分信息蒸馏用于知识迁移

本论文提出了一种信息理论框架用于知识转移，将知识转移视为最大化教师和学生网络之间的互信息，将该方法应用于不同架构的网络间的知识转移，证明了其性能远超现有方法。

Apr, 2019

强化多教师选择的知识蒸馏

本文研究了一种改进模型压缩方法，通过强化学习动态调整知识蒸馏中教师模型的权重，从而提高了学生模型性能，适用于自然语言处理任务。

Dec, 2020