Nov, 2020

何时需要数十亿字的预训练数据?

TL;DR通过四种探究方法,我们发现语言模型只需要大约 100M 的单词量,就能够可靠地编码大多数句法和语义特征,而大量的数据需要用来获得足够的常识和其他技能,以掌握典型的下游 NLU 任务。