Jun, 2022

基于注意机制的知识蒸馏模型压缩的代表性教师关键

TL;DR本文提出了一种基于注意力机制的知识蒸馏方法,名为代表性教师关键 (point)(RTK),可以实现从大型模型中提取特征信息并训练小型模型,在保证特征相似性的同时过滤掉无用信息,在几个常用的数据集上进行实验,取得了显著的分类准确率提升。