LegalBench:构建适用于法律推理的协同基准测试
介绍了 LegalBench,对 20 个开源和商业的大型语言模型进行了实证评估,并展示了 LegalBench 所提供的研究探索类型。
Aug, 2023
本文介绍了一个新的自然语言处理任务和数据集,基于美国民事诉讼领域,旨在为评估现代法律语言模型提供具有挑战的任务。研究表明,fine-tuning 法律 transformer 模型相对于随机基线模型更有优势,但推理法律论点的实际能力仍是具有挑战性的开放性研究问题。
Nov, 2022
LEGALSEMI 是一个专门为法律情境分析而制作的基准库,包含 54 个经过法律专家严格注释的法律情境,每个情境都基于完整的 IRAC 框架(问题、规则、应用、结论),并伴随着一个结构化知识图谱(SKG)。通过对四种不同的 LLM 进行一系列实验,实验结果显示了 LEGALSEMI 在问题识别、规则检索、应用和结论生成等方面的有效性。
Jun, 2024
强大的神经分类器的出现增加了对既需要学习又需要推理的问题的兴趣,该研究论文介绍了一个包含任务评估、概念质量评估和推理快捷方式验证的综合基准套件,旨在系统地评估推理快捷方式对模型的影响。
Jun, 2024
大型语言模型在法律领域的能力评估中,提出了全面评估基准 LawBench,并经过广泛测试发现 GPT-4 是在法律领域表现最好的模型,但还有很大提升空间。
Sep, 2023
通过将推理任务转换为检索任务,我们发现,即使没有针对推理级别的语言理解进行专门训练,目前最先进的检索模型在协助 LLMs 的角色上可能仍然远离胜任,特别是在推理密集型任务中。然而,最近基于解码器的嵌入模型在弥合这一差距方面表现出巨大潜力,突显了嵌入模型实现推理级别语言理解的路径。通过微调重新排序模型将推理能力注入其中似乎比对双编码器进行类似操作更容易,我们能够在所有任务中通过微调重新排序模型实现最先进的性能。我们发布由整体任务和设置组成的推理作为检索基准(RAR-b),用于评估检索模型中存储的推理能力。
Apr, 2024
我们引入了一种新颖的评估范式来评估大型语言模型,这种范式挑战了它们进行元推理。该方法解决了现有的数学问题解决基准测试中存在的关键缺陷,传统上用于评估代理的认知能力。我们的范式将重点从以结果为导向的评估转向更综合的评估,能够有效区分模型之间的认知能力。例如,在我们的基准测试中,GPT-4 的性能比 GPT3-5 准确率高十倍。这种新范式的重要性在于它能够揭示当前基准测试(如 GSM8K)未能发现的语言模型的潜在认知缺陷,这是由于它们的饱和度和在不同推理能力之间缺乏有效区分。我们的综合分析包括来自开源和闭源社区的几个最先进的数学模型,揭示了它们的训练和评估方法的根本缺陷。本文不仅主张在评估 LLMs 时进行范式转变,而且对于关于人工通用智能(AGI)的持续讨论也作出了贡献。通过推广类似于我们的元推理评估方法的采用,我们旨在促进对 LLM 真正认知能力的更准确评估。
Dec, 2023
近期在自然语言处理 (NLP) 常识推理研究领域,已经取得了大量新的数据集和基准(benchmark)。然而,这些数据集中的大部分在人工场景中构建常识推理挑战,不反映真实世界 NLP 系统所设计用于解决的任务。本文提出了 CRoW,这是一个手动筛选的多任务基准,用于评估模型在六个真实世界 NLP 任务中应用常识推理的能力。CRoW 使用多阶段数据收集流程构建,通过常识违规扰动重写现有数据集的样例。我们使用 CRoW 研究 NLP 系统在常识知识的不同维度(如物理、时间和社交推理)上的表现。我们发现,在 CRoW 上评估 NLP 系统与人类相比存在显著的性能差距,这表明在真实任务环境中,常识推理远未解决。我们将数据集和排行榜提供给研究社区。
Oct, 2023
本文提出了一种用于高级数学推理的数据集,研究了神经序列到序列模型的推理能力。实验结果表明,该任务具有挑战性,但神经模型能够捕捉到非平凡的数学推理,提出的分层 Transformer 的性能也好于基准 Transformer。
Jun, 2020