LEXTREME：法律领域的多语言和多任务基准

Jan, 2023

LEXTREME：法律领域的多语言和多任务基准

LEXTREME: A Multi-Lingual and Multi-Task Benchmark for the Legal Domain

Joel Niklaus, Veton Matoshi, Pooja Rani, Andrea Galassi, Matthias Stürmer...

TL;DR使用 Transformer 架构的进步，促进了法律 NLP 领域的发展。为了评估其发展，需要有好的基准数据集。但是目前大部分基准数据集只有英文，而且其中缺少多语言数据集。为此，作者选择了 11 个涵盖 24 种语言的数据集，并创建了 LEXTREME。该工作提出了两种聚合得分，一种基于数据集，一种基于语言。最佳基线模型（XLM-R large）的数据集聚合得分和语言聚合得分均为 61.3，表明 LEXTREME 仍具有很高的挑战难度。为了方便研究人员和从业者使用，作者将 LEXTREME 公开在了 huggingface 并提供了所有用于评估模型的代码以及包括所有运行结果的 public Weights and Biases 项目。

Abstract

Lately, propelled by the phenomenal advances around the transformer architecture, the legal nlp field has enjoyed spectacular growth. To measure progress, well curated and challenging benchmarks are crucial. However, most benchmarks are English only and in →

legal nlp multilingual benchmark lextreme aggregate scores xlm-r large

发现论文，激发创造

XTREME: 用于评估跨语言通用化的大规模多语言多任务基准数据集

该论文介绍了一个名为 XTREME 的跨语言多任务基准测试，它可以在 40 种语言和 9 个任务上评估多语言表示的跨语言泛化能力，研究表明，跨语言模型在句法和句子检索任务上的性能仍有相当大的差距，该基准测试旨在促进跨语言学习方法的研究。

Mar, 2020

XTREME-R: 朝着更具挑战性和细致多语言评估迈进

本文研究运用机器学习技术进行多语言自然语言处理的现状，通过对 XTREME-R 的介绍和使用提出跨语言转移学习的方法，并提供一个交互式公共排行榜和 XTREME-R 的代码以拓展其应用领域。

Apr, 2021

SCALE：高级语言模型评估复杂度的扩展

该研究引入了一个基于瑞士法律系统的多维 NLP 基准测试，包括长文本处理、领域特定知识拥有、多语言理解、多任务等挑战，该基准测试可以用于测试和推广最先进的 LLMs 模型。

Jun, 2023

MultiLegalPile: 一个拥有 689GB 的多语言法律文本库

本研究介绍了一个新的大型多语言法律文本数据集 MultiLegalPile，用于培训各种 NLP 模型，使用 RoBERTa 和 Longformer 等预训练模型性能优越，在 LEXTREME 上取得新的 SotA，我们在 LexGLUE 的英语和多语言模型上进行了评估，发布了数据集、训练模型和所有代码。

Jun, 2023

LawBench：大型语言模型法律知识基准评估

大型语言模型在法律领域的能力评估中，提出了全面评估基准 LawBench，并经过广泛测试发现 GPT-4 是在法律领域表现最好的模型，但还有很大提升空间。

Sep, 2023

XTREME-S: 评估跨语言语音表示

该文章介绍了新的 XTREME-S 基准测试，其涉及语音识别，分类，语音到文本翻译和检索四大任务类别。该基准测试覆盖了 10 多种语言家族的 102 种语言与 3 个不同领域和 4 个任务家族，旨在简化多语言语音表示评估，并以 XLS-R 和 mSLAM 在所有下游任务中建立了第一个仅语音和语音文本基线。同时该基准测试旨在推动对 “通用” 的语音表示学习的研究，数据集和微调脚本可在提供的网址进行访问。

Mar, 2022

MEGAVERSE：跨语言、跨模态、跨模型和跨任务进行大型语言模型基准测试

通过评估 GPT-4 和 PaLM2 在 MEGAVERSE 数据集上的表现，研究发现这两个模型在多个任务上超过了 Llama 模型，尤其是在资源稀缺的语言中，其中 GPT-4 在更多的数据集上优于 PaLM2。然而，为了准确评估非英语语言上 LLM 的性能，我们需要解决数据污染等问题。

Nov, 2023

超越静态模型和测试集：在任务和语言间评测预训练模型的潜力

本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法，以此取代传统基于翻译的方法评估系统，该方法表现良好并且能够可靠地估计模型在不同语言上的表现。

May, 2022

MultiEURLEX -- 用于零样本跨语言转移的多语言和多标签法律文件分类数据集

MULTI-EURLEX 是一个多语言数据集，用于法律文件的主题分类，其中包含 65,000 个欧盟法律，并使用 EUROVOC 分类法进行了注释。在使用该数据集进行零 - shot 跨语言转移时，发现使用单个源语言对多语言预训练模型进行微调会导致多语言语言知识的严重遗忘，并因此表现出较差的零 - shot 转移结果，但是通过部分微调等调整策略可以帮助保留预训练模型的跨语言知识，从而显著提高零 - shot 跨语言转移性能。

Sep, 2021

LLMeBench：一款加速 LLM 基准测试的灵活框架

近期大型语言模型（LLMs）的发展和成功需要对其在不同语言的各种 NLP 任务中的性能进行评估。本研究介绍了 LLMeBench 框架，该框架最初是为了使用 OpenAI 的 GPT 和 BLOOM 模型评估阿拉伯语 NLP 任务而开发的，但它可以轻松地定制任何 NLP 任务和模型，无论语言如何。该框架还具有零样本学习和少样本学习的设置。用户可以在不到 10 分钟的时间内添加新的自定义数据集，并使用自己的模型 API 密钥评估所需的任务。该框架已经在 31 个独特的 NLP 任务中进行了测试，涉及 53 个公开可用的数据集和大约 296K 个数据点的 90 个实验设置。我们计划将该框架开源给社区。在线上有演示视频供观看。

Aug, 2023