- 可扩展流基主动蒸馏的相机聚类
我们提出了一个可扩展的框架,用于设计高效的轻量级视频目标检测模型,利用自训练和知识蒸馏技术。我们研究了从视频流中选择训练图像的理想方法和跨多个摄像头分享模型的效果。通过提倡一种摄像头聚类方法,我们旨在减少训练所需的模型数量,同时增加蒸馏数据 - 视觉 Transformer 模型压缩与加速综述
本研究通过评估四种主要的模型压缩技术:量化、低秩近似、知识蒸馏和剪枝,解决了视觉 Transformer 在计算和内存需求方面的问题,并全面实验评估了这些技术及其组合在资源受限环境中优化 ViTs 的功效,证明了这些方法在模型精度和计算效率 - AI-KD: 面部图像质量评估中的对齐不变性:知识蒸馏方法
提出一种新的知识蒸馏方法 AI-KD,通过扩展现有的面部图像质量评估技术,提高其对于对齐变化的鲁棒性和性能,在多个面部数据集上进行实验证明,AI-KD 不仅在不对齐的样本上改善初始 FIQA 技术的性能,而且在正确对齐的面部图像上也取得了最 - MTKD:图像超分辨率的多教师知识蒸馏
我们提出了一种新颖的多教师知识蒸馏(MTKD)框架,专门用于图像超分辨率,通过结合和增强多个教师模型的输出来指导紧凑的学生网络的学习过程,并通过在空间和频率域中观察差异来优化训练过程,从而在超分辨率性能上实现了明显的改善。
- ReffAKD: 资源高效的基于自编码器的知识蒸馏
提出了一种新方法来提高知识蒸馏效率,同时不需要资源密集的教师模型。通过使用紧凑的自动编码器提取特征并计算不同类别之间的相似度得分,然后对这些相似度得分应用 softmax 函数以获得软概率向量,这个向量在学生模型的训练中作为有价值的指导。在 - 大型语言模型的全面评析和分析:范式和微调策略的导引
通过综述大型模型微调方法,该研究探讨了最新技术进展和在任务自适应微调、领域自适应微调、少样本学习、知识蒸馏、多任务学习、参数高效微调和动态微调等方面的高级方法的应用。
- 强化轻量级裂纹分割模型性能的鲁棒特征知识蒸馏
该论文开发了一种名为鲁棒特征知识蒸馏(RFKD)的框架,通过从教师模型的逻辑层和中间特征图中提取知识,并利用混合的清晰和噪声图像将稳定的模式传递给学生模型,提高其精度、泛化性能和抗噪声性能,从而改善轻型裂缝分割模型的鲁棒性。验证结果表明,在 - CLIP-Embed-KD: 以嵌入向量作为教师的计算高效知识蒸馏
通过利用嵌入作为教师,我们扩展了 CLIP 用于高效进行知识蒸馏,初步结果表明,使用嵌入进行基于 CLIP 的知识蒸馏可以在使用少至 9 倍内存和 8 倍训练时间的情况下优于完整规模的知识蒸馏。
- 通过知识蒸馏提高面部标志点检测的准确性和效率
通过知识蒸馏方法,本研究提出了一种创新的方式,可以开发适用于嵌入式系统的轻量级但功能强大的深度学习模型,以应对面部地标检测任务中的挑战,包括动态环境、不同的表情、方向和光照条件。
- 我们真的需要一个复杂的代理系统吗?将具体化的代理蒸馏成单一模型
STEVE-2 使用层次化知识蒸馏框架,将大型语言模型和多模态语言模型集成到开放式任务中的具身代理中,实现了复杂的任务执行以及对可执行动作的生成。STEVE-2 在导航和创作任务上的广泛评估表明,在开放式任务中,其表现优于其他方法,性能提升 - 金鱼:一种高效的联邦退学框架
通过引入 Goldfish 框架和采用新的损失函数与知识蒸馏技术,研究提出了一种解决机器遗忘效率和有效性挑战的方法,并通过实验证明了该方法的有效性。
- ACL基于生成的理由和知识蒸馏的事件共指建模
使用自然语言处理(NLP)中的事件核指消解(Event Coreference Resolution)技术,通过利用现代自回归语言模型生成的假设自由文本(abductive free-text rationales)作为小型学生模型的远程监 - ICLR关于蒸馏的令人惊讶的疗效作为替代预训练小模型的研究
我们提出了一种针对小模型的训练方法,不需要吸收预训练的成本,却能获得相同的性能,并且通过知识蒸馏与对比学习的连接,能够有效地降低计算成本,提高训练速度,同时通过数据增强进一步改善性能。
- COLING小型语言模型是否能帮助大型语言模型更好地进行推理?:LM 引导下的思路链
我们引入了一种新颖的框架,LM-Guided CoT,它利用轻量级(即 <1B)语言模型(LM)指导黑盒大型(即> 10B)LM 在推理任务中的工作。具体而言,轻量级 LM 首先为每个输入实例生成理论依据,接着使用冻结的大型 LM 根据轻量 - 通过标签修订和数据选择改进知识蒸馏
该论文提出了一种解决知识蒸馏中错误监督的问题的方法,即通过标签修正纠正教师模型的错误预测,并引入数据选择技术以减少错误监督的影响,实验证明该方法的有效性,并表明该方法可以与其他蒸馏方法相结合,提高其性能。
- 结构健康监测的基础模型
使用 Transformer 神经网络和自监督预训练技术进行结构健康监测,超过传统方法在异常检测和交通负荷估计等任务上的性能,并通过模型大小和精确度的权衡实现在边缘节点嵌入较小的 Transformers。
- 对大型语言模型的知识蒸馏中库尔巴克 - 莱布勒散度的重新思考
通过实证和理论证明,逆向 Kullback-Leiber(RKL)分散度在大语言模型知识蒸馏中并非寻找模式而是均值寻找,与前向 Kullback-Leiber(FKL)优化目标相同,经过足够多的迭代后二者收敛。基于实践约束,提出了一种简单而 - 多尺度先验混合的图像超分辨率知识蒸馏
MiPKD 是一种多粒度的先验知识蒸馏方法,通过在统一的潜在空间和随机网络块混合中实现特征混合,来促进高效的超分辨率模型,实验证明 MiPKD 方法的有效性。
- 适应性基于亲和力的 MRI 图像分割在资源有限环境下的泛化
通过基于关系的知识框架和轻量级模型,实现了医学图像分割领域中的多种数据源的集成,提高了模型的泛化能力和适应性,同时减少了推理时间和存储使用,成为实时医学图像分割的实用和高效的解决方案。
- 联邦蒸馏:调查
该论文就联邦蒸馏(FD)提供了全面的概述,介绍了其最新进展,探讨了 FD 框架的基本原理,阐述了应对各种挑战的 FD 方法,并提供了 FD 在不同场景中的多样化应用。