Oct, 2020

为何跳过合并:一种用于中间层的简单知识蒸馏技术

TL;DR本研究提出一种新颖的神经机器翻译知识蒸馏技术,通过层级监督,将大型准确的老师网络的知识注入到小巧的学生网络中,以适应边缘设备上内存约束的低资源环境。实验表明,采用该技术,学生网络的参数数量减少了 50%,仍能提供与老师网络相媲美的翻译结果。针对葡萄牙语 - 英语、土耳其语 - 英语和英语 - 德语方向的翻译实验结果也得到了验证。