HomoDistil: 预训练 Transformer 的同拓扑无关任务蒸馏
本文提出了一种任务不可知的知识蒸馏框架 ——XtremeDistilTransformers,利用任务特定方法学习出一个通用模型,可以应用于任意语言和任务,并研究了蒸馏过程中多个源任务、扩充资源和模型架构的可迁移性。在多项任务中验证了该模型的性能,并发布了三个蒸馏的任务不可知检查点,其中最小的检查点包含 1300 万个参数,实现了多项任务的 SOTA 表现。
Jun, 2021
通过多项实验研究,我们发现基于 MiniLMv2 的 Multi-Head Attention 转移是蒸馏中更优选的方法,并解释了其成功的可能原因。此外,我们还发现基于 Hidden State 转移的方法在精妙的层映射策略下依然是竞争性的基准,而 Output Distribution 转移一直落后于其他方法。研究结果帮助我们为延迟关键应用部署高效且有效的学生模型。
Oct, 2023
本文介绍了一种针对大型语言模型的任务无关的零样本评估蒸馏方法,该方法使用截断版本的大模型作为初始化,并使用语言建模目标继续预训练该模型,已从根本上解决了对任务特定学习数据的依赖。本方法可以在无法将教师和学生都放入 GPU 内存的情况下将模型尺寸有效减少 50%,并在 13 个零样本端到端任务上达到了与基准蒸馏方法相当或超越的性能和准确性,计算效率提高了 1.5 倍。
May, 2023
提出了一种利用多任务学习的方法来缩小大型预训练语言模型和小型模型之间的泛化差距,使其能够在任务无关的场景下实现直接微调,并且表现相当。实验证明,这种方法产生了一个具有更好泛化性能的学生,显著优于现有基线方法,在任务无关蒸馏方面,该方法在相应的领域内、领域外和低资源数据集上,以及 SQuAD 和四个 GLUE 任务方面,甚至超过了 8 倍大的 BERT 模型。此外,通过结合 ERNIE 3.0,在 10 个中文数据集上获得了最新的实验结果。
Jan, 2023
本文提出了一种基于多任务学习的知识蒸馏方法,用于训练轻量级的预训练模型,该方法适用于不同的教师模型体系结构,并且相较于传统上基于 LSTM 的方法,具有更好的语言表达能力和更快的推理速度。
Nov, 2019
大型预训练视觉模型在多样的识别任务上表现出显著的泛化能力。然而,现实世界中的应用通常需要针对特定问题的紧凑模型。本文针对这一目的,提出了各种知识蒸馏的变体,使得特定任务的紧凑模型(学生)能够从通用的大型预训练模型(教师)中学习。我们展示了近期预训练模型出色的鲁棒性和多功能性挑战了文献中已经建立起来的共同实践,需要一组新的最优准则来进行特定任务的蒸馏。为了解决下游任务中样本不足的问题,我们还展示了一种基于稳定扩散的 Mixup 变体,该策略补充了标准数据增强,消除了工程化的文本提示的需求,改善了通用模型向精简专用网络的蒸馏。
Feb, 2024
通过引入少量任务特定参数到每个 transformer 层中,利用多任务的知识,在最近广受关注的语言模型中,被称为 adapters。然而,为了实现知识组合,增加额外的融合层不仅增加推理时间,也对某些应用不具有可扩展性。为了避免这些问题,我们提出了一种名为 AdapterDistillation 的两阶段知识蒸馏算法。在第一阶段,我们通过使用本地数据训练一个学生适配器来提取任务特定的知识。在第二阶段,我们将现有的教师适配器的知识蒸馏到学生适配器中,以帮助其推理。在面向任务的对话系统中频繁提问的检索方面的大量实验证实了 AdapterDistillation 的效率。我们展示了 AdapterDistillation 在准确性、资源消耗和推理时间等方面优于现有算法。
Dec, 2023
该篇论文提出了一种名为 AutoDistil 的新 KD 方法,利用 NAS 自动蒸馏出可变成本的压缩模型,该方法使用归纳偏差和技巧将搜索空间分成 K 个紧凑的子空间,并使用每个子空间产生的超级模型进行训练,以在不需要重新训练的情况下进行轻量级搜索,实验表明该方法在 GLUE 基准测试中表现优异。
Jan, 2022
本研究提出一种名为 TED 的任务感知分层蒸馏方法,通过使用任务感知滤波器,选取有用于目标任务的知识来减小知识差距,从而在学生和教师之间减小知识差距并帮助学生更好地适应目标任务,在连续预训练和微调的两种情况下,TED 都比现有的蒸馏方法表现出明显且一致的改进。
Oct, 2022
本研究提出了一种名为 HetComp 的知识蒸馏框架,用于将异构模型的整体知识转移给一个轻量级模型,以减少资源成本和推理延迟,该框架使用动态知识构建和自适应知识传输提供逐步更难的排序信息,并通过全面实验表明该框架能够显著提高精度和泛化性能。
Mar, 2023