Oct, 2022

任务感知分层蒸馏:语言模型压缩的 “减法即增益

TL;DR本研究提出一种名为 TED 的任务感知分层蒸馏方法,通过使用任务感知滤波器,选取有用于目标任务的知识来减小知识差距,从而在学生和教师之间减小知识差距并帮助学生更好地适应目标任务,在连续预训练和微调的两种情况下,TED 都比现有的蒸馏方法表现出明显且一致的改进。