Jun, 2021

共同指导:跨归纳偏差蒸馏

TL;DR该研究提出了一种新颖的基于蒸馏的方法,用于训练视觉 transformers,并取得了比先前同等架构的 transformers 更好的性能,该方法的关键是使用具有不同归纳偏差的轻量级 teachers 来共同指导 student transformer,从而实现不同的知识交汇和提升。