LAiW：中国法律大型语言模型基准（技术报告）

Oct, 2023

LAiW：中国法律大型语言模型基准（技术报告）

LAiW: A Chinese Legal Large Language Models Benchmark (A Technical Report)

Yongfu Dai, Duanyu Feng, Jimin Huang, Haochen Jia, Qianqian Xie...

TL;DR我们提出了第一个基于法学能力的中国法学硕士 (LLMs) 综合评估基准。通过法律和人工智能专家的协作努力，我们将法学硕士的法律能力分为三个层次：基本法律自然语言处理能力、基本法律应用能力和复杂法律应用能力。我们已完成了第一阶段的评估，主要关注基本法律自然语言处理能力。评估结果显示，尽管一些法学硕士在性能上优于它们的基础模型，但与 ChatGPT 相比仍存在差距。我们的基准测试可以在 URL 上找到。

Abstract

With the emergence of numerous legal llms, there is currently a lack of a comprehensive benchmark for evaluating their legal abilities. In this paper, we propose the first Chinese →

legal llms benchmark legal capabilities legal nlp evaluation

发现论文，激发创造

LawBench：大型语言模型法律知识基准评估

大型语言模型在法律领域的能力评估中，提出了全面评估基准 LawBench，并经过广泛测试发现 GPT-4 是在法律领域表现最好的模型，但还有很大提升空间。

Sep, 2023

InternLM-Law：一个开源的中国法律大型语言模型

通过在中国法律领域构建超过 100 万个查询的数据集，并实现数据筛选和处理流程以确保其多样性和质量，我们介绍了 InternLM-Law，这是一个专门为回答与中国法律相关的各种法律问题而量身定制的大型语言模型。我们的训练方法涉及一种新颖的两阶段过程：首先在法律特定和通用内容上对 LLM 进行微调，以使模型具备广泛知识，然后在高质量的法律数据上进行独家微调以增强结构化输出生成能力。InternLM-Law 在 LawBench 上的平均表现最高，在 20 个子任务中有 13 个超过了包括 GPT-4 在内的最先进模型。我们公开提供 InternLM-Law 和我们的数据集，以促进将 LLM 应用于法律领域的未来研究。

Jun, 2024

OpenEval: 对中文语言模型在能力、对齐性和安全性方面进行基准测试

开放评估是一个评估测试基地，以能力、对齐和安全等方面对中文大型语言模型进行基准测试，并发现了在常识推理、对齐和安全性等方面需要更多关注的问题。

Mar, 2024

ChatLaw: 带外部知识库集成的开源法律大语言模型

本文介绍了一个名为 ChatLaw 的开源法律大语言模型，它通过特定的数据集、关键词检索和自注意力机制来优化模型在法律领域的表现，解决了参考数据筛选过程中的模型幻觉问题，提升了其解决问题的能力。

Jun, 2023

揭示竞争动态：美国和中国 LLM 的比较评估

该研究对中美两国大型语言模型在英语和中文环境下进行了全面比较评价，发现 GPT 4-Turbo 在英语环境中居于领先地位，而 Ernie-Bot 4 在中文环境中表现出色。研究强调了语言和任务差异对大型语言模型性能的影响，强调在模型开发中的语言和文化细微差别的重要性，并指出中美大型语言模型的相互补充性，强调了中美之间在推进大型语言模型技术方面的合作价值。该研究还为政策制定者和企业关于战略性大型语言模型投资和发展提供了有价值的见解，并展望了未来的研究方向，包括多模态能力和商业应用方面的评估。

May, 2024

法务 GPT：一个中国法律知识增强型大型语言模型

LawGPT 是第一个专门为中国法律应用设计的开源模型，通过在大规模中国法律文件上进行法律导向的预训练和法律指导下的精细调优，LawGPT 在下游法律任务的表现优于开源模型 LLaMA 7B。

Jun, 2024

SCALE：高级语言模型评估复杂度的扩展

该研究引入了一个基于瑞士法律系统的多维 NLP 基准测试，包括长文本处理、领域特定知识拥有、多语言理解、多任务等挑战，该基准测试可以用于测试和推广最先进的 LLMs 模型。

Jun, 2023

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

逐九：为大型语言模型提供的多维多面的中文基准测试

大语言模型的综合性和准确性评估需要全面而系统的基准。为此，我们提出了 ZhuJiu 基准，具有综合评估大语言模型的多维能力覆盖，多方面合作评估方法，全面的中文基准以及避免潜在数据泄漏的特点。我们对 10 个当前主流大语言模型进行了评估，并对结果进行了深入的讨论和分析。

Aug, 2023

FoundaBench: 评估大型语言模型在中文基础知识能力上的表现

本研究介绍了 FoundaBench，这是一个旨在严格评估中国语言和文化定制的大型语言模型的基础知识能力的开创性基准。使用 FoundaBench 对 12 个最先进的语言模型进行了全面评估，结果表明在中文语料库上预训练的模型性能更优，同时发现模型的推理和记忆能力存在显著差异。FoundaBench 评估得出的见解为理解大型语言模型的基础知识奠定了新的标准，为未来领域的进展提供了一个强大的框架。

Apr, 2024