Jun, 2023
MultiLegalPile: 一个拥有 689GB 的多语言法律文本库
MultiLegalPile: A 689GB Multilingual Legal Corpus
Joel Niklaus, Veton Matoshi, Matthias Stürmer, Ilias Chalkidis, Daniel E. Ho
TL;DR本研究介绍了一个新的大型多语言法律文本数据集 MultiLegalPile,用于培训各种 NLP 模型,使用 RoBERTa 和 Longformer 等预训练模型性能优越,在 LEXTREME 上取得新的 SotA,我们在 LexGLUE 的英语和多语言模型上进行了评估,发布了数据集、训练模型和所有代码。