Jun, 2024

使用 Rusty-DAWG 评估语言模型的 n-Gram 新颖性

TL;DR研究了语言模型生成的文本与其训练语料库之间的新颖程度,并通过评估生成的 $n$-gram 的概率和 $n$- 新颖性来揭示影响生成新颖性的因素。发现对于较大的 $n$,语言模型生成的文本不如人为编写的文本新颖,但对于较小的 $n$,则更为新颖。同时发现较大的语言模型和受限的解码策略均会降低新颖性,而低频 $n$-gram 在训练数据中出现的频率越低,语言模型完成它们时的误差也越小。通过发布 Rusty-DAWG 工具以促进进一步的预训练数据研究。