COLINGOct, 2021

KNOT:使用最优输运进行知识蒸馏来解决自然语言处理任务

TL;DR我们提出了一种新的方法,使用最优传输进行知识蒸馏 (KNOT),从多个教师网络中提取自然语言的语义知识传输到一个学生网络中。此方法通过学习最小化分配给标签的概率分布的最优传输成本到教师模型的概率加权和的学生模型(全局)来训练学生模型,新的语义距离(SD)度量衡量预测和真实标签分布之间的语义接近程度。该方法在三个 NLP 任务上表现出了比基准更好的 SD 性能,并在标准准确性和 F1 度量上与基于熵的蒸馏表现相当。