Dec, 2020
基于注意力机制的高效图像变换及蒸馏训练
Training data-efficient image transformers & distillation through attention
Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles...
TL;DR通过使用注意力机制的神经网络,我们以卷积神经网络为教师,在 ImageNet 上训练单个计算机下的优秀可比拟的转换器,并引入了基于蒸馏令牌的教师 - 学生策略,以获得竞争性结果。