本文提出一种编码方法,用于从高维词嵌入中提取特定任务的知识,旨在解决在各种资源受限系统中高性能的轻量级神经网络的需求问题。实验结果表明,从笨重的嵌入中提取知识优于使用小型嵌入直接训练神经网络,能保证高准确性的同时大幅减少模型复杂度。
Jun, 2015
本研究提出一种深度学习模型的压缩方法,利用低秩矩阵因式分解来压缩自然语言处理中的字词嵌入层,经过实验证明可以在90%的压缩比下保持精度不受影响,并且在句子分类任务上表现优于其他方法,同时还引入了一种新的学习率调度算法CALR,其在句子分类基准测试中表现出优越性。
Nov, 2018
本文通过使用混合词汇训练来对齐师生嵌入,提出了一种压缩BERT-LARGE的知识蒸馏方法,使其成为一个具有更小词汇表和隐藏维数的无任务模型,这个模型的经验结果表明它比其他压缩BERT模型在语言理解基准和实际对话任务中具有更好的性价比。
Sep, 2019
本研究提出了一种基于中间层对比蒸馏的知识蒸馏框架(CoDIR),通过区分正样本和大量负样本,使学生模型通过中间层更好地提取和压缩教师模型的知识,该方法在GLUE基准测试中表现优异。
Sep, 2020
本文利用 Kronecker 分解技术对预训练语言模型进行压缩,在保证模型高通用性的同时,将模型大小压缩至原大小的 5%,并在多个 NLP 基准测试上实现更好的性能和全新的 out-of-distribution 鲁棒性表现。
Sep, 2021
本文提出了一种新的语言表示学习的知识蒸馏方法,通过单词关系和层变换关系传递上下文知识,无需限制教师和学生的架构变化,验证了该方法在语言理解任务的各种架构和DynaBERT等自适应尺寸剪枝方法的挑战性基准上的有效性。
该研究论文介绍了知识蒸馏的不同方法,其中包括对词汇表的缩减,以助于通过两种简单而有效的对齐技术,对具有简化词汇表的学生进行知识蒸馏,并证明这些技术可以在保持一定质量的情况下实现17倍至49倍的压缩。
May, 2022
本篇研究提出了在两种不同类型的ranker模型上扩展句子转换蒸馏过程的两种方法,包括生成最优尺寸的词汇表和在蒸馏之前对教师的嵌入维数进行降维。结果表明,采用这些扩展技术的学生模型具有极大的压缩程度,而且在测试数据集上表现出高度的有效性和能用性。
Jun, 2022
本研究使用了Transformer-based模型(如BERT、GPT和T5),并进行了知识蒸馏来进行模型压缩,特别关注TinyBERT学生模型。通过实验不同的损失函数、Transformer层映射方法和注意力和表示损失的权重调整,评估了提出的方法在GLUE基准测试的若干下游任务上的效果,旨在提高知识蒸馏技术的效率和准确性,为各种自然语言处理任务的开发提供更高效和准确的模型。
Aug, 2023
通过比较传统的低秩分解与最近引入的 Monarch 分解,我们在 Transformer 压缩技术方面提出了一个全面的分析,发现低秩分解在不同压缩比和六个文本分类任务中始终优于 Monarch 分解。
Jun, 2024