本文介绍了一种组合使用低精度计算和蒸馏知识来提高深度学习网络性能的方法,该方法取得了 ImageNet 数据集上 ResNet 架构各种变体的三元精度和 4 位精度的准确率的最新成果,并提供了三种应用蒸馏知识技术到训练和部署流程中的方案。
Nov, 2017
该论文提出一种基于神经网络结构搜索的知识蒸馏模型AKD,可以将老师模型的知识蒸馏到学生模型的参数和结构中。实验表明AKD方法比传统的NAS和KD方法更有效,在ImageNet分类任务和其他任务中都能取得最先进的结果。
Nov, 2019
本文讨论了知识蒸馏和S-T学习,提供了对知识蒸馏的解释以及该方法的最新进展、技术细节和视觉应用状况的全面调查,并分析了现有方法的潜力和挑战,展望了知识蒸馏和S-T学习的未来方向。
Apr, 2020
该论文从知识分类、训练方案、教师-学生架构、蒸馏算法、性能比较和应用等方面全面调查了知识蒸馏。并简要回顾了知识蒸馏中的挑战,并探讨了未来的研究方向。
Jun, 2020
本文介绍了一种用于减小大规模计算机视觉模型尺寸、同时不影响性能的知识蒸馏方法,并且明确了影响该方法有效性的设计选择。通过全面的实验研究,我们在多种视觉数据集上获得了令人信服的结果,并实现了在ImageNet数据集上的ResNet-50模型的最新表现,其top-1准确率为82.8%。
Jun, 2021
本文研究Vision Transformer的特征蒸馏方法,并提出ViTKD可以使基于ImageNet数据集的学生模型的准确率分别提升1.64%、1.4%和1.7%。
Sep, 2022
该研究提出了Cumulative Spatial Knowledge Distillation (CSKD)方法,它能够在不引入中间特征的情况下,从相应的CNN空间响应中将空间上的知识传递到ViT的所有补丁令牌,并在训练过程中利用Cumulative Knowledge Fusion模块,以更好的利用CNN的局部归纳偏差,在ImageNet-1k和下游数据集上取得了优异的表现。
Jul, 2023
我们提出了一种CNN到ViT知识蒸馏框架,包括视觉语言特征蒸馏模块(VLFD)和像素级解耦蒸馏模块(PDD),实验证明我们的方法在三个语义分割基准数据集上的mIoU增量是最先进知识蒸馏方法的200%以上。
Oct, 2023
知识蒸馏是一种将复杂模型压缩为更小更简单的技术,本论文综述了知识蒸馏的原理、技术和在计算机视觉领域的应用,并专注于探讨知识蒸馏的好处以及提高其有效性所需克服的问题。
Apr, 2024
本研究解决了视觉变换器在部署于资源有限设备时面临的高计算需求和大量数据训练的挑战。创新性地提出无数据的知识蒸馏方法,通过压缩大型视觉变换器模型,显著提升了其在小型设备上的应用潜力。实验结果表明,该方法能够有效优化视觉变换器的性能,使其在有限资源下依然具备较高的应用效果。
Aug, 2024