Apr, 2024

构建大规模的日语网络语料库用于大型语言模型

TL;DR通过从 Common Crawl 档案中提取和精炼文本,该研究构建了一个大型的日语网页语料库,用于训练日语大型语言模型。该语料库包含大约 3121 亿个字符(约 1.73 亿页),是目前可用的日语训练语料库中最大的,超过了 CC-100、mC4 和 OSCAR23.10。通过对基于 Llama 2 的不断预训练,并在日语基准数据集上取得一致(6.6-8.1 分)的改善,该研究证明了所提供语料库对 Llama 2 的改善效果是已有语料库中最大的。