稠密预测的结构化知识蒸馏
该文提出了一种简单有效的方法,通过局部匹配所有子结构的预测结果而非整个输出空间,将知识从教师模型传递给其学生模型,较之现有方法在训练效率方面相对更高,并鼓励学生模型更好地模拟教师模型的内部行为。该方法在两个结构化预测任务上的实验表明,可以胜过先前的方法并且减少一个训练周期的时间成本。
Mar, 2022
该文提出了一种可用于解决结构化预测问题的知识蒸馏目标函数的分解形式,该分解形式对于许多师生模型的典型选择是可处理的。具体而言,它展示了四种不同情况下序列标注和依赖解析模型之间的结构知识蒸馏的可处理性和实际有效性。
Oct, 2020
本文提出了一种基于结构相似性的知识蒸馏替代方法,通过考虑特征空间的对比度、结构线索、相关性和空间依赖性,在中间特征层面进行指导。在 MSCOCO 上的实验表明,这种方法简单易行、计算开销小,同时在不同的训练方案和网络架构上都能显著提高模型性能。
Nov, 2022
本论文提出了一种基于结构化知识蒸馏的框架,旨在提高现代视觉仅 BEV 检测模型的效率,并在 nuScenes 基准测试上表现出显著的优越性,平均改善 2.16mAP 和 2.27NDS。
Nov, 2022
本文介绍了一种将多个模型组成的模型集合体及其概率输出 match 到参考状态和使用模型集合体探索搜索空间,通过实验表明,这种蒸馏(distillation)方式可以有效提高模型性能,比之前的模型都表现良好。
May, 2018
提出了一种基于图的知识蒸馏框架,用于正确识别和定位文档图像中的文档对象,通过同时捕捉局部和全局信息,实现了小型、高效的模型,并在竞争性基准测试中表现优于现有方法。
Feb, 2024
知识蒸馏可解决语义分割中的大型模型和慢速推理问题。研究中鉴定了 14 篇发表于近 4 年的 25 种蒸馏损失项。通过对 2022 年两篇论文的比较,揭示了超参数选择不当导致学生模型性能极端差异的问题。为了提高该领域的未来研究可比性,建立了三个数据集和两种学生模型的坚实基线,并提供了大量有关超参数调整的信息。在 ADE20K 数据集上,发现只有两种技术能与我们简单的基线相竞争。
Sep, 2023
我们提出了一种高效的网络结构,通过从训练充分的医学图像分割网络中提炼知识来训练另一个轻量级网络,从而使得轻量级网络在保留其运行效率的同时,显著提高了其分割能力。通过使用我们为医学图像分割量身定制的新颖蒸馏模式,从教师网络向学生网络传递语义区域信息,避免了处理医学图像时遇到的模糊边界问题。在我们的实验中,轻量级网络的性能提高了 32.6%,同时在推理阶段保持了可移植性,并在 LiTS17 和 KiTS19 两个公认的公共 CT 数据集上进行了验证。
Aug, 2021
本研究旨在探究神经网络在医学图像分割任务中的知识迁移可行性,特别关注从大规模多任务的 “教师” 网络向更小的 “学生” 网络的迁移。我们通过多尺度特征蒸馏和监督对比学习的结构,通过整合从教师模型获取的知识表示来提高学生模型的性能,并通过大量实验和消融研究评估了多尺度特征蒸馏的影响,以及不同损失对知识迁移的整体性能的影响。
Jun, 2024