模块性是否可转移？通过知识蒸馏的案例研究

COLINGMar, 2024

模块性是否可转移？通过知识蒸馏的案例研究

Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation

Mateusz Klimaszewski, Piotr Andruszkiewicz, Alexandra Birch

TL;DR模块化深度学习在自然语言处理应用中展现了潜力，而参数高效微调（PEFT）模块化已经表明其适用于各种情况，从领域自适应到多语言设置。本文通过知识蒸馏的视角填补了现有模块化方法的一个重要空白，并提出了一种非常简单的方法，在同一家族的预训练语言模型（PLM）之间传递预训练、任务特定的 PEFT 模块。此外，我们提出了一种允许在不改变推理复杂度的情况下在不兼容的 PLM 之间传递模块的方法。多语言和 PEFT 方法上对命名实体识别、自然语言推理和剽窃识别任务的实验展示了可传递的模块化的初步潜力。

Abstract

The rise of modular deep learning showcases its potential in various Natural Language Processing applications. parameter-efficient fine-tuning (PEFT) →

modular deep learning parameter-efficient fine-tuning knowledge distillation transfer learning modularity

发现论文，激发创造

评估参数高效微调方法训练的参数矩阵的可移植性

通过使用参数高效微调技术训练的模块，研究探讨了任务特定知识在不同模型之间的可移植性，发现该方法在情感分析等任务上远远优于从头开始训练或从相同分布中采样参数训练的模块。

Jan, 2024

m2mKD：Modular Transformers 的模块到模块知识蒸馏

我们提出了一种模块到模块的知识迁移方法（m2mKD），通过将具有共享元模型的教师模块和学生模块相结合，鼓励学生模块模仿教师模块的行为。在两种不同的模块化神经架构：神经注意电路（NACs）和视觉专家混合（V-MoE）上应用 m2mKD，我们获得了显着改进的分类准确率和鲁棒性。实验结果表明，我们的方法为将模块化网络与预训练的整体模型相连接提供了一种有希望的解决方案。

Feb, 2024

多模态大语言模型参数高效微调的实证研究

使用四种常见的 PEFT 方法对开源 MLLMs 的 LLM 组件进行微调，比较它们在参数效率方面的表现，结果显示 adapter 是效果最好的 PEFT 方法。

Jun, 2024

PEFT-Ref: 一种用于参数高效微调技术的模块化参考架构和分类方法

本文提出了一个参考框架，该框架标准化了不同 PEFT 技术共享的方面，同时将差异隔离到特定位置和与标准组件的交互。通过标准化和隔离差异的过程，PEFT 技术的模块化视图出现，既支持不同技术及其效率和任务表现的直接比较，也支持不同类型的调优模块的可重用性和组合性的系统探索。我们演示了如何应用参考框架来了解 PEFT 技术的属性和相对优势，因此，可以为特定任务选择技术，并为新的 PEFT 技术设计选择。

Apr, 2023

使用参数高效迁移学习探索语言模型的越界鲁棒性

本研究系统地探讨了在预训练语言模型（Pre-trained Language Models）规模扩大或转移方法改变时，检测样本分布变化的能力如何随之改变，着重评估了各种 PETL 技术在三个不同意图分类任务上的效果。

Jan, 2023

预训练语言模型的参数高效微调方法：关键评估与考察

预训练语言模型与基于它们的参数高效微调方法被综合评述，重点讨论了内存效率和计算资源限制等参数效率问题以及应用于下游任务的挑战和机遇。

Dec, 2023

NewsBERT: 挖掘预训练语言模型应用于智能新闻

本文提出了一种名为 NewsBERT 的基于预训练语言模型的知识蒸馏方法，该方法利用知识蒸馏技术将大型 PLM 压缩为更小的模型，以提高新闻智能应用的性能，并且在两个真实世界的数据集上进行了广泛的实验。

Feb, 2021

一个老师足矣？多个教师的预训练语言模型蒸馏

本文提出了一种多教师知识蒸馏框架 MT-BERT，可以从多个教师 PLMs 中训练高质量的学生模型，并在三个基准数据集上验证了其压缩 PLMs 的有效性。

Jun, 2021

改进和解释预训练语言模型的语言专家混合适配器

本研究提出了一种方法，在参数高效微调（PEFT）环境中将语言结构注入到预训练语言模型中。我们使用一种新颖的语言专家混合体架构，将编码不同语言结构的并行适配器模块进行组合，并使用 Gumbel-Softmax 门来确定模型每一层中这些模块的重要性。为了减少参数数量，在修剪专家之前，我们首先对模型进行了固定步骤的训练。我们用三种不同的预训练模型进行实验，结果表明我们的方法在具有相当数量的参数的情况下，能够胜过最先进的 PEFT 方法。此外，我们还提供了额外分析，以检查和提供未来研究的见解。

Oct, 2023

参数高效迁移学习在机器翻译中的适用条件

本文通过全面实证研究发现，适当的 Tuning 数量的 Parameter-efficient fine-tuning methods，特别是使用了嵌入小型前馈神经网络 (adapters) 的模型，可以在机器翻译 (MT) 任务上达到效果与全模型调整类似的水平，尤其当参数预算为 10％的情况下。但是，当调优参数数量减少时，PEFT 的性能会随之减弱，这一降低幅度取决于语言对的关系，而对于小型数据集，PEFT 的性能优于同样的预训练模型的全模型调整。

May, 2022