EMNLPOct, 2020
压缩语言模型中预训练数据量的重要性
On the importance of pre-training data volume for compact language models
Vincent Micheli, Martin d'Hoffschmidt, François Fleuret
TL;DR我们研究了预训练数据量对紧凑型语言模型的影响。我们发现,即使只有 100MB 的预训练数据,通过在法语问答数据集(FQuAD)上微调 BERT 模型,都可以得到表现很好的模型。此外,我们还展示了,除了任务特定的语料库,中等数量的预训练数据并不能取得实质性的改进。