Jun, 2024

特权学生:关于多语言知识蒸馏中初始化价值的研究

TL;DR我们调查了知识蒸馏在多语言环境中的价值和模型初始化方法,发现通过将教师模型的权重直接复制到学生模型来增强初始化对于各种多语言环境中的模型初始化最为重要,并证明了高效的权重初始化在低资源场景下仍能保留多语言能力。