EMNLPOct, 2020

压缩语言模型中预训练数据量的重要性

TL;DR我们研究了预训练数据量对紧凑型语言模型的影响。我们发现,即使只有 100MB 的预训练数据,通过在法语问答数据集(FQuAD)上微调 BERT 模型,都可以得到表现很好的模型。此外,我们还展示了,除了任务特定的语料库,中等数量的预训练数据并不能取得实质性的改进。