ACLFeb, 2024
迈向交叉标记器蒸馏:面向语言模型的通用逻辑蒸馏损失
Towards Cross-Tokenizer Distillation: the Universal Logit Distillation Loss for LLMs
Nicolas Boizard, Kevin El-Haddad, Céline Hudelot, Pierre Colombo
TL;DR通过使用基于最优传输的通用对数蒸馏(ULD)损失函数,我们解决了传统方法中教师模型和学生模型需共享分词器的限制,提供了一种跨不同架构和分词器进行蒸馏的有效方法,为蒸馏技术的广泛应用铺平了道路。