AMD：大规模视觉模型的自动多步蒸馏

Jul, 2024

AMD：大规模视觉模型的自动多步蒸馏

AMD: Automatic Multi-step Distillation of Large-scale Vision Models

Cheng Han, Qifan Wang, Sohail A. Dianat, Majid Rabbani, Raghuveer M. Rao...

TL;DR我们提出了一种名为AMD的新方法，用于大规模视觉模型压缩，通过跨多个步骤展开蒸馏过程，形成中间的助教模型，以进一步蒸馏到学生模型。我们的方法在多个图像分类数据集上表现优于已有方法，为大规模视觉模型的知识蒸馏方法铺平了道路。

Abstract

transformer-based architectures have become the de-facto standard models for diverse vision tasks owing to their superior performance. As the size of the models continues to scale up, model distillation becomes e

发现论文，激发创造

通过知识蒸馏技术提高低精度网络的准确度

本文介绍了一种组合使用低精度计算和蒸馏知识来提高深度学习网络性能的方法，该方法取得了 ImageNet 数据集上 ResNet 架构各种变体的三元精度和 4 位精度的准确率的最新成果，并提供了三种应用蒸馏知识技术到训练和部署流程中的方案。

Nov, 2017

基于蒸馏和量化的模型压缩

本文提出了两种新的模型压缩方法：量化蒸馏和可微量化。两种方法在卷积和循环体系结构上的实验结果表明，在资源受限的环境中，量化浅层神经网络可以达到与全精度模型相似的准确性水平，同时提供数量级压缩和推断加速。

Feb, 2018

知识蒸馏和师生学习在视觉智能中的应用：评述与新观点

本文讨论了知识蒸馏和S-T学习，提供了对知识蒸馏的解释以及该方法的最新进展、技术细节和视觉应用状况的全面调查，并分析了现有方法的潜力和挑战，展望了知识蒸馏和S-T学习的未来方向。

Apr, 2020

知识蒸馏：综述

该论文从知识分类、训练方案、教师-学生架构、蒸馏算法、性能比较和应用等方面全面调查了知识蒸馏。并简要回顾了知识蒸馏中的挑战，并探讨了未来的研究方向。

Jun, 2020

知识蒸馏：好老师耐心且一致

本文介绍了一种用于减小大规模计算机视觉模型尺寸、同时不影响性能的知识蒸馏方法，并且明确了影响该方法有效性的设计选择。通过全面的实验研究，我们在多种视觉数据集上获得了令人信服的结果，并实现了在ImageNet数据集上的ResNet-50模型的最新表现，其top-1准确率为82.8％。

Jun, 2021

通过细粒度流形蒸馏学习高效视觉Transformer

本文提出了一种基于细粒度流形知识蒸馏的方法，旨在减少以往视觉变换器的计算量，并在ImageNet-1k分类基准测试中实现了76.5％的高水平准确性。

Jul, 2021

基于学生-教师模型的去泛化自编码器知识蒸馏

该研究提出了一种通用到特定蒸馏法 (G2SD)，以在受掩膜自编码器预训练的大型模型的监督下激发小型ViT模型的潜力，从而在图像分类、目标检测和语义分割任务上设置了坚实的基线。

Feb, 2023

提炼归纳偏见：超越模型压缩的知识蒸馏

通过集成式蒸馏方法从轻量级教师模型中蒸馏归纳偏差，我们介绍了一种创新的蒸馏方法，以支持视觉转换和文本领域之间的统一信息处理，提高了学生性能，并减轻了计算负担和提高了效率。

Sep, 2023

用于预训练小型基础模型的非对称遮蔽蒸馏

通过非对称蒙版蒸馏 (AMD) 框架，以无监督学习为基础的相对较小视觉变换器模型能够高效适应下游任务，提高分类准确率和性能表现。

Nov, 2023

计算机视觉中知识蒸馏的综述

知识蒸馏是一种将复杂模型压缩为更小更简单的技术，本论文综述了知识蒸馏的原理、技术和在计算机视觉领域的应用，并专注于探讨知识蒸馏的好处以及提高其有效性所需克服的问题。

Apr, 2024