本文提出了一种自我注意力蒸馏(SAD)方法来提高车道检测的深度学习模型的性能。这种方法使得模型可以从自身中学习丰富的上下文信息,无需额外监督或标签,从而在三个主要基准中取得了优秀的性能,并且可以轻松地与任何前馈 CNN 集成,而不会增加推断时间。
Aug, 2019
本研究提出了自行蒸馏 (self-distillation) 框架,在物体检测领域有显著的性能提升,无需强大的预训练模型,同时还将训练成本降低了 51%。
Sep, 2021
提出的注意力引导特征蒸馏(AttnFD)方法利用精细特征图来传递关注力,证明了其在语义分割中提取丰富信息的有效性,通过只使用教师和学生的精炼特征图之间的均方误差(MSE)损失函数,在 PascalVoc 2012 和 Cityscapes 数据集上实现了语义分割的最佳性能(mean Intersection over Union,mIoU 达到了最新水平)。
Mar, 2024
研究知识蒸馏在神经网络中的应用。提出了一种基于注意力机制的组合技术,通过将教师网络和学生网络的信息进行融合,并且考虑每层的重要性,在中间层进行蒸馏。实验表明,该技术能够优于其他现有的技术。
Dec, 2020
通过引入新颖的 “引导燃烧” 阶段的教师 - 学生蒸馏模型以及评估不同的实例分割架构、骨干网络和预训练策略,我们改进了蒸馏方法,并利用未标记数据在引导燃烧阶段中进行了指导,从而显著提高了先前最先进的结果。
Aug, 2023
提出了一种新的注重注意力的特征蒸馏(AFD)方法,通过从教师检测器中蒸馏本地和全局信息,实现了目标检测模型在资源有限的边缘设备上的高效性能。
Oct, 2023
本文提出了一种基于锚点的深度车道线检测模型 LaneATT,通过引入注意力机制和全局信息聚合,解决扩展到自动驾驶的场景的实时性问题,并在多个公开数据集上验证了其效果优于现有的方法。
Oct, 2020
通过学生模型与教师模型的自适应对齐,'Align-to-Distill'(A2D)策略在 Transformer 架构的知识蒸馏中解决了特征映射问题,实验证明 A2D 相较于 Transformer 基准模型,在 WMT-2022 的 De->Dsb 和 WMT-2014 的 En->De 翻译任务中分别获得了 + 3.61 和 + 0.63 BLEU 得分的提升。
本文提出了匹配引导蒸馏(Matching Guided Distillation,MGD)方法,该方法是一种高效的,不需要参数的方法,旨在解决适配模块带来的问题和随机初始化或特殊转换对预训练学生进行提炼的不利影响。MGD 的关键思想是将教师信道与学生信道的匹配作为分配问题,通过三种解决方案将教师信道的数量减少到学生信道,并使用部分蒸馏损失来更新分配。整个训练采用两个优化目标之间的协调下降方法。
Aug, 2020
在深度卷积神经网络中,通过设计全局 - 局部对齐关注(GAA)网络和边缘侵蚀的深度监督策略,减少了插值对特征和标签的负面影响,相比现有方法,在五个常用数据集上实现了更好的结果。
Nov, 2023