May, 2020

知识蒸馏传递诱导偏置

TL;DR该研究探讨了在模型之间利用知识蒸馏的方法将归纳偏差迁移的可行性和效果,以不同归纳偏差的模型(LSTMs vs. Transformers 和 CNNs vs. MLPs)为例,研究了归纳偏差对模型收敛结果的影响以及知识蒸馏的迁移效果。