RobBERTje: 一个被蒸馏的荷兰 BERT 模型
本研究使用 RobBERT 作为荷兰语预训练模型,对各种任务的执行效果进行了测量,包括用于微调的数据集规模的重要性以及模型的公平性。研究发现,RobBERT 在各种任务上都可以提供良好的性能,并且在处理较小的数据集时明显优于其他模型,这表明它是适用于多种荷兰语任务的功能强大的预训练模型。
Jan, 2020
该研究比较了基于 2.4 亿令牌的广泛数据集训练的荷兰语模型 BERTje 与基于维基百科文本的多语言 BERT 模型,在词性标注、命名实体识别、语义角色标注和情感分析等自然语言处理任务上,BERTje 表现出更好的性能。
Dec, 2019
通过知识蒸馏的预训练阶段,可以将 BERT 模型的大小缩小 40%,同时保持 97%的语言理解能力并且速度提升 60%,这种方法被称为 DistilBERT,并可为边缘设备上的计算提供良好的性能
Oct, 2019
该研究对 RobBERT 进行了更新,更新了 tokenizer 和数据集,使用新模型取代模型更新的效果显著,证明持续更新语言模型可以提高性能。
Nov, 2022
通过新的 Transformer 蒸馏方法和两阶段 TinyBERT 学习框架,可以有效地将大型 BERT 中的知识转移到小型 TinyBERT,从而在维持准确性的同时加速推理和减少模型大小,TinyBERT 在短语匹配任务的 GLUE 数据集上取得了 96.8% 以上的性能,模型大小约为 BERT 的 1/8,推理速度约为 BERT 的 1/10。
Sep, 2019
本文提出了一种名为 NewsBERT 的基于预训练语言模型的知识蒸馏方法,该方法利用知识蒸馏技术将大型 PLM 压缩为更小的模型,以提高新闻智能应用的性能,并且在两个真实世界的数据集上进行了广泛的实验。
Feb, 2021
该研究论文针对知识蒸馏在自然语言处理中预训练模型所遇到的问题,探讨利用领域内未标记的数据、有限的已标记数据和基于简单 RNN 模型的硬蒸馏方法解决师生模型间性能差异的问题。实验结果表明,使用软蒸馏和利用教师模型的中间表示,学生模型的性能可以进一步提高,而在低资源环境下,学生模型在保证与教师模型性能基本持平的情况下,可实现最多 26 倍的压缩比,针对多语言环境的扩展实验结果更是惊人。
Oct, 2019
该研究论文通过知识蒸馏技术开发了适用于西班牙语的 RoBERTa 压缩语言模型,旨在提供高效的西班牙语问答能力,并在计算资源有限的环境中广泛应用,同时保持性能不受明显影响。该工作为进一步研究和压缩西班牙语模型在各种 NLP 任务中的应用提供了起点。
Dec, 2023
MoEBERT 是一种基于 Mixture-of-Experts 结构的深度神经网络模型,使用层级蒸馏方法训练高效且准确的预训练模型,用于自然语言理解和问答任务。
Apr, 2022
本文通过使用混合词汇训练来对齐师生嵌入,提出了一种压缩 BERT-LARGE 的知识蒸馏方法,使其成为一个具有更小词汇表和隐藏维数的无任务模型,这个模型的经验结果表明它比其他压缩 BERT 模型在语言理解基准和实际对话任务中具有更好的性价比。
Sep, 2019