Jan, 2022

朝着更干净的面向文档的多语言爬行语料库

TL;DR本文介绍了通过对现有的多语言网页语料库 OSCAR 进行自动注解和改进,以获得更适合于预训练大型生成语言模型的新版本的方法。