本文提出了一种知识蒸馏框架,以压缩具有大内存占用的上下文化主题模型,而不会在主题质量上造成损失,并在两个公开数据集上进行实验以证明其有效性。
Mar, 2023
深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。
Oct, 2023
深度神经网络通过知识蒸馏的模型压缩技术能够有效地在大型和小型模型之间实现信息转移,本研究通过实验探究了蒸馏过程对于信息损失的影响,并提出了一种优化配置方法。
Nov, 2023
本研究探讨了一种 Knowledge Distillation 的新方法,即从神经网络和词汇知识库中提取语言信息,以提供大规模模型的高效替代方案,并提出了两种基于多个 teacher networks 预测权重的技术以及一种用于词义消歧的方法,并发现使用本文中的词汇预训练方法可在不增加参数的情况下提高自然语言理解任务 (NLU) 的性能,同时在 Plagiarism Detection 方面也有了更好的表现。
Jan, 2023
文章介绍了建立语言模型的知识库的更新方法,通过上下文蒸馏的方式对实体进行继承知识,以良好的效果进行更新,而不会影响到性能。
Jun, 2023
该研究论文介绍了知识蒸馏的不同方法,其中包括对词汇表的缩减,以助于通过两种简单而有效的对齐技术,对具有简化词汇表的学生进行知识蒸馏,并证明这些技术可以在保持一定质量的情况下实现 17 倍至 49 倍的压缩。
May, 2022
本文提出 VL distillation,使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型,以提高图像字幕生成和视觉问答任务中的性能。
Apr, 2021
通过改进的混合方法,将知识蒸馏技术应用于神经机器翻译,以在不同的情境中提高模型性能和压缩模型。
Apr, 2024
本文探讨了如何通过知识蒸馏来压缩 MNMT 模型,发现这是一项具有挑战性的任务,并提出了一些设计思考和优化方案。
Apr, 2023
本文研究神经机器翻译中知识蒸馏的技术,发现知识来源于教师的 top-1 预测,进一步提出一种名为 TIE-KD 的方法用于增强知识蒸馏,包含了层次排序损失和迭代蒸馏等措施,实验证明 TIE-KD 优于基准模型,具有更高的潜力和泛化性能。
May, 2023