ACLFeb, 2024

迈向交叉标记器蒸馏:面向语言模型的通用逻辑蒸馏损失

TL;DR通过使用基于最优传输的通用对数蒸馏(ULD)损失函数,我们解决了传统方法中教师模型和学生模型需共享分词器的限制,提供了一种跨不同架构和分词器进行蒸馏的有效方法,为蒸馏技术的广泛应用铺平了道路。