COLINGMar, 2024

模块性是否可转移?通过知识蒸馏的案例研究

TL;DR模块化深度学习在自然语言处理应用中展现了潜力,而参数高效微调(PEFT)模块化已经表明其适用于各种情况,从领域自适应到多语言设置。本文通过知识蒸馏的视角填补了现有模块化方法的一个重要空白,并提出了一种非常简单的方法,在同一家族的预训练语言模型(PLM)之间传递预训练、任务特定的 PEFT 模块。此外,我们提出了一种允许在不改变推理复杂度的情况下在不兼容的 PLM 之间传递模块的方法。多语言和 PEFT 方法上对命名实体识别、自然语言推理和剽窃识别任务的实验展示了可传递的模块化的初步潜力。