使用知识蒸馏改进神经主题模型
本文提出了一种知识蒸馏框架,以压缩具有大内存占用的上下文化主题模型,而不会在主题质量上造成损失,并在两个公开数据集上进行实验以证明其有效性。
Mar, 2023
本文提出了一种名为知识蒸馏半监督主题模型(KDSTM)的方法,该方法可以利用主题模型的无监督特征提取来完成文本分类任务,而无需预先训练。该方法具有较高的效率和准确性,相对于基于监督的分类模型更具鲁棒性。
Jul, 2023
本文提出了一种基于演员 - 评论家方法的知识蒸馏框架,旨在从教师模型中选择适当的知识来训练学生模型,实验结果表明该方法在 GLUE 数据集上优于常规基线模型。
Feb, 2023
本文研究神经机器翻译中知识蒸馏的技术,发现知识来源于教师的 top-1 预测,进一步提出一种名为 TIE-KD 的方法用于增强知识蒸馏,包含了层次排序损失和迭代蒸馏等措施,实验证明 TIE-KD 优于基准模型,具有更高的潜力和泛化性能。
May, 2023
针对 transformer-based pre-trained language models 在实际应用中过大且延迟高的问题,该研究提出一种基于 knowledge distillation 的压缩方法,并通过系统实验对比分析知识类型、匹配策略、模型大小等多方面,最终提供一套最佳实践指南。
Jun, 2022
本文使用知识蒸馏方法对多任务深度神经网络进行优化,提供了解决集成大型神经网络问题的方法,并在 GLUE 基准测试中取得了显著的成果。
Apr, 2019
本文提出了一种基于多任务学习的知识蒸馏方法,用于训练轻量级的预训练模型,该方法适用于不同的教师模型体系结构,并且相较于传统上基于 LSTM 的方法,具有更好的语言表达能力和更快的推理速度。
Nov, 2019
本文介绍了在神经机器翻译中应用知识蒸馏技术,包括传统的单词级别预测和两种新的序列级知识蒸馏模型。在现有最优模型的基础上,我们的学生模型在运行速度增加的同时,表现损失不大。此外,通过权重剪枝,还极大地减小了模型的参数数量。
Jun, 2016
使用知识蒸馏技术将深度神经网络转换成决策树,以同时实现较好的性能和可解释性,并比基准决策树模型获得显著更高的精度,在 TensorFlow 平台上实现对大数据集的可扩展性。
Dec, 2018
该研究论文介绍了知识蒸馏的不同方法,其中包括对词汇表的缩减,以助于通过两种简单而有效的对齐技术,对具有简化词汇表的学生进行知识蒸馏,并证明这些技术可以在保持一定质量的情况下实现 17 倍至 49 倍的压缩。
May, 2022