Jun, 2023

MultiLegalPile: 一个拥有 689GB 的多语言法律文本库

TL;DR本研究介绍了一个新的大型多语言法律文本数据集 MultiLegalPile,用于培训各种 NLP 模型,使用 RoBERTa 和 Longformer 等预训练模型性能优越,在 LEXTREME 上取得新的 SotA,我们在 LexGLUE 的英语和多语言模型上进行了评估,发布了数据集、训练模型和所有代码。