RobBERTje: 一个被蒸馏的荷兰 BERT 模型

Apr, 2022

RobBERTje: 一个被蒸馏的荷兰 BERT 模型

RobBERTje: a Distilled Dutch BERT Model

Pieter Delobelle, Thomas Winters, Bettina Berendt

TL;DR该论文讨论预训练模型以及使用语言模型精简方法创建的 RobBERTje 蒸馏模型，发现在包含长序列的任务上，与其教师模型相比，蒸馏模型具有更少的性别刻板印象和更好的训练和性能效果。

Abstract

Pre-trained large-scale language models such as BERT have gained a lot of attention thanks to their outstanding performance on a wide range of natural language tasks. However, due to their large number of parameters, they are resource-intensive both to deploy and to fine-tune. Researchers have created several methods for distilling language models into small

pre-trained models language model distillation robbert sequence models gender-stereotypical bias

发现论文，激发创造

RobBERT: 一种基于 RoBERTa 的荷兰语言模型

本研究使用 RobBERT 作为荷兰语预训练模型，对各种任务的执行效果进行了测量，包括用于微调的数据集规模的重要性以及模型的公平性。研究发现，RobBERT 在各种任务上都可以提供良好的性能，并且在处理较小的数据集时明显优于其他模型，这表明它是适用于多种荷兰语任务的功能强大的预训练模型。

Jan, 2020

BERTje：荷兰语 BERT 模型

该研究比较了基于 2.4 亿令牌的广泛数据集训练的荷兰语模型 BERTje 与基于维基百科文本的多语言 BERT 模型，在词性标注、命名实体识别、语义角色标注和情感分析等自然语言处理任务上，BERTje 表现出更好的性能。

Dec, 2019

DistilBERT：BERT 的简化版 —— 更小、更快、更便宜、更轻

通过知识蒸馏的预训练阶段，可以将 BERT 模型的大小缩小 40％，同时保持 97％的语言理解能力并且速度提升 60％，这种方法被称为 DistilBERT，并可为边缘设备上的计算提供良好的性能

Oct, 2019

RobBERT-2022: 更新荷兰语言模型以适应语言使用的演变

该研究对 RobBERT 进行了更新，更新了 tokenizer 和数据集，使用新模型取代模型更新的效果显著，证明持续更新语言模型可以提高性能。

Nov, 2022

TinyBERT：自然语言理解的 BERT 蒸馏模型

通过新的 Transformer 蒸馏方法和两阶段 TinyBERT 学习框架，可以有效地将大型 BERT 中的知识转移到小型 TinyBERT，从而在维持准确性的同时加速推理和减少模型大小，TinyBERT 在短语匹配任务的 GLUE 数据集上取得了 96.8% 以上的性能，模型大小约为 BERT 的 1/8，推理速度约为 BERT 的 1/10。

Sep, 2019

NewsBERT: 挖掘预训练语言模型应用于智能新闻

本文提出了一种名为 NewsBERT 的基于预训练语言模型的知识蒸馏方法，该方法利用知识蒸馏技术将大型 PLM 压缩为更小的模型，以提高新闻智能应用的性能，并且在两个真实世界的数据集上进行了广泛的实验。

Feb, 2021

用未标记的转移数据将 BERT 蒸馏为简单的神经网络

该研究论文针对知识蒸馏在自然语言处理中预训练模型所遇到的问题，探讨利用领域内未标记的数据、有限的已标记数据和基于简单 RNN 模型的硬蒸馏方法解决师生模型间性能差异的问题。实验结果表明，使用软蒸馏和利用教师模型的中间表示，学生模型的性能可以进一步提高，而在低资源环境下，学生模型在保证与教师模型性能基本持平的情况下，可实现最多 26 倍的压缩比，针对多语言环境的扩展实验结果更是惊人。

Oct, 2019

西班牙语效率问答的语言模型知识蒸馏

该研究论文通过知识蒸馏技术开发了适用于西班牙语的 RoBERTa 压缩语言模型，旨在提供高效的西班牙语问答能力，并在计算资源有限的环境中广泛应用，同时保持性能不受明显影响。该工作为进一步研究和压缩西班牙语模型在各种 NLP 任务中的应用提供了起点。

Dec, 2023

MoEBERT: 通过重要性引导自适应将 BERT 转变为 Experts 混合

MoEBERT 是一种基于 Mixture-of-Experts 结构的深度神经网络模型，使用层级蒸馏方法训练高效且准确的预训练模型，用于自然语言理解和问答任务。

Apr, 2022

来自混合词汇训练的极小 BERT 模型

本文通过使用混合词汇训练来对齐师生嵌入，提出了一种压缩 BERT-LARGE 的知识蒸馏方法，使其成为一个具有更小词汇表和隐藏维数的无任务模型，这个模型的经验结果表明它比其他压缩 BERT 模型在语言理解基准和实际对话任务中具有更好的性价比。

Sep, 2019