COLINGMar, 2024

对齐蒸馏:神经机器翻译中用于知识蒸馏的可训练注意力对齐

TL;DR通过学生模型与教师模型的自适应对齐,'Align-to-Distill'(A2D)策略在 Transformer 架构的知识蒸馏中解决了特征映射问题,实验证明 A2D 相较于 Transformer 基准模型,在 WMT-2022 的 De->Dsb 和 WMT-2014 的 En->De 翻译任务中分别获得了 + 3.61 和 + 0.63 BLEU 得分的提升。