CMKD: 基于 CNN/Transformer 交替模型知识蒸馏的音频分类
本文介绍了第一种不依赖卷积操作而采用纯自注意力机制的声音分类模型 ——Audio Spectrogram Transformer(AST),在多个音频分类数据集上取得了新的最优结果。
Apr, 2021
提出了一种基于类别注意力传递的知识蒸馏(CAT-KD)方法,该方法不仅具有高解释性,还在多个基准测试中实现了最先进的性能,通过传输课程激活地图,从而提供了关于 CNN 的更好的理解,并改进了 CAT-KD 的解释性。
Apr, 2023
通过引入自知识蒸馏方法,解决了自动语音识别中教师 - 学生模型帧级对齐不一致的问题,该方法使用共享编码器层并将子模型作为学生模型,提高了资源效率和性能,并通过实验证明了所提方法通过减少对齐不一致来改善性能。
Jun, 2024
通过引入卷积链接信号变换器 (ClST) 和信号知识蒸馏 (SKD) 的新型神经网络和知识蒸馏方法,提出了用于自动调制识别 (AMR) 的轻量级神经网络 KD-CNN 和 KD-MobileNet,实现在微型通信设备上的部署并获得更高的识别准确率和较少的网络复杂性。
Dec, 2023
该研究提出了两种解决方案,即 URFM 和 APT,帮助在人脸识别的跨体系结构知识蒸馏中解决教师和学生之间的差异性空间信息以及教师网络在处理蒸馏特定知识方面的能力不足的问题。
Jun, 2023
本论文提出一种基于知识蒸馏(KD)的模型训练策略,通过将教师模型学到的知识传输给学生模型,简化深度神经网络(DNN)学生模型并实现了显著的精度提高,使用多个教师模型进行训练进一步提高了学生模型的准确性。包括教师门控以及蒸馏损失提前停止等创新方法在内的多个实验表明了基于知识蒸馏的训练策略的有效性。
Nov, 2020
在大规模音频数据集中,通过 Transformer 取代 CNN 作为神经网络体系结构的最先进模型,本文通过 Transformer 与 CNN 的知识蒸馏,提出了一种高效的 CNN 模型,通过引入动态非线性、动态卷积和注意机制构建了动态 CNN 块,实验证明这种动态 CNN 模型在音频标签任务中的性能复杂度权衡和参数效率方面超越了传统的高效 CNN 模型,并且在下游任务中表现出更好的性能,达到了 Transformer 的性能甚至在 AudioSet 和多个下游任务上超越了 Transformer。
Oct, 2023
本文研究知识迁移领域的另一种方法:Born-Again Networks (BANs),将学生的参数与老师的相同, 来达到比老师更好的性能表现。在计算机视觉和语言建模任务中, BANs 表现出甚至比老师高出许多的性能得分,并且在各种规模的学生中,将知识从 DenseNets 到 ResNets 和反向传输,都显示出明显的优势
May, 2018
本文介绍了一种在线知识蒸馏框架,通过选择和交换可靠知识来协同学习基于卷积神经网络(CNN)和视觉变压器(ViT)的模型,以进行语义分割。经过大量实验验证,我们提出的框架在大幅领先于现有的在线蒸馏方法的同时,展示了 ViT 和 CNN 模型之间协同学习的有效性。
Jul, 2023