MarginDistillation: 基于边际的 softmax 蒸馏

Mar, 2020

MarginDistillation: 基于边际的 softmax 蒸馏

MarginDistillation: distillation for margin-based softmax

David Svitov, Sergey Alyamkin

TL;DR本文提出了一种新的蒸馏方法，该方法使用教师网络的类中心作为学生网络的训练目标，通过这种方法，能够在 LFW、AgeDB-30 和 Megaface 数据集上超越其他已知的轻量级神经网络架构蒸馏方法，实现更好的人脸识别效果。

Abstract

The usage of convolutional neural networks (CNNs) in conjunction with a margin-based softmax approach demonstrates a state-of-the-art performance for the →

convolutional neural networks margin-based softmax approach face recognition distillation method teacher-student network

发现论文，激发创造

深度人脸识别的三元组蒸馏

本文提出了一种增强版本的三元组损失函数，名为三元组蒸馏，在多个数据集上展示了其优于原始三元组损失函数的优越性，能够自适应地变化正负样本之间的间隔，从而更好地利用相似性信息来提高紧凑模型的性能。

May, 2019

Transformer 转 CNN：用于文本分类的标签稀缺蒸馏方法

这篇论文介绍了一种用蒸馏过程从大型模型中训练出的卷积学生架构，它可以实现 300 倍的推理加速和 39 倍的参数减少，有时学生模型的性能甚至超过了它的老师模型。

Sep, 2019

基于误分类向量引导的人脸识别 Softmax 损失

本论文提出了一种新的适应性损失函数，该函数强调错分特征向量以指导较有区别的特征学习，从而解决传统损失函数在面部识别中存在的问题，并在多个基准测试上取得了比其他先进替代方案更有效的实验结果。

Nov, 2019

自我蒸馏：通过蒸馏提高卷积神经网络性能

提出了一种名为 “自蒸馏” 的卷积神经网络训练框架，通过将网络大小缩小而不是扩大来显著提高卷积神经网络的性能（准确性）。它与传统的知识蒸馏不同，后者是将预训练的教师神经网络的输出作为 softmax 层输出的近似值强制学生神经网络去逼近。该框架将知识内化到网络本身，对深度方面的可伸缩推理提供了灵活性，能够在资源有限的边缘设备上运行。

May, 2019

从教师那里学习度量：用于图像嵌入的紧凑网络

本文提出使用网络蒸馏来高效计算小型网络产生的图像嵌入，通过构建两个新的损失函数模拟深度教师网络向小型学生网络通信的机制，在多个数据集上验证我们的方法，得出小型学生网络计算的嵌入明显优于使用相似大小的标准网络计算的结果。其中在可移动设备上使用的 MobileNet-0.25 产生了 44.6% 的 Recall@1 结果。同时，研究了蒸馏嵌入的各种方面，包括提示和注意力层，半监督学习以及不同质量的蒸馏。

Apr, 2019

使用无限宽的卷积神经网络进行数据集蒸馏

采用一种新的分布式基于核的元学习框架，使用无限宽的卷积神经网络，在数据集压缩中实现前沿的结果，通过对 MNIST，Fashion-MNIST，CIFAR-10，CIFAR-100 和 SVHN 等多个数据集的数据压缩进行初步分析，为数据如何与自然发生的数据不同提供了一些启示。

Jul, 2021

特征蒸馏的全面改进

本文研究了特征蒸馏方法在网络压缩中的设计问题，并提出了一种新的特征蒸馏方法，其中蒸馏损失的设计使各个方面之间产生协同效应：老师变换，学生变换，蒸馏特征位置和距离函数。该方法在图像分类、目标检测和语义分割等多个任务中实现了显著的性能提升。

Apr, 2019

用廉价卷积进行蒸馏

提出了一种通过结构模型蒸馏实现神经网络内存降低的方法，使用注意力转移，并提供了残差网络的 Pareto 曲线和表格，证明这种蒸馏方法在极少损失准确率的情况下能够显著节省内存并提升学生网络性能。

Nov, 2017

人脸识别的 Web 规模训练

本文研究了深度卷积网络在人脸识别中的性能，发现网络的 “瓶颈” 结构对于迁移学习具有重要作用，并提出了一种解决方法，即用自助法取代随机子采样；同时还发现了表示范数和目标域判别能力之间的联系，并基于这些发现，在目前最流行的人脸识别数据集 LFW 上取得了优秀的性能，甚至超越了商用系统。

Jun, 2014

从自监督学习中提取视觉先验

本文提出一种新的两阶段流程，通过自监督学习和知识蒸馏来提高卷积神经网络模型在小数据集下的图像分类泛化能力，并使用新型边缘损失来更好地学习表示。

Aug, 2020