Oct, 2023
LAiW:中国法律大型语言模型基准(技术报告)
LAiW: A Chinese Legal Large Language Models Benchmark (A Technical Report)
Yongfu Dai, Duanyu Feng, Jimin Huang, Haochen Jia, Qianqian Xie...
TL;DR我们提出了第一个基于法学能力的中国法学硕士 (LLMs) 综合评估基准。通过法律和人工智能专家的协作努力,我们将法学硕士的法律能力分为三个层次:基本法律自然语言处理能力、基本法律应用能力和复杂法律应用能力。我们已完成了第一阶段的评估,主要关注基本法律自然语言处理能力。评估结果显示,尽管一些法学硕士在性能上优于它们的基础模型,但与 ChatGPT 相比仍存在差距。我们的基准测试可以在 URL 上找到。