Oct, 2023

LAiW:中国法律大型语言模型基准(技术报告)

TL;DR我们提出了第一个基于法学能力的中国法学硕士 (LLMs) 综合评估基准。通过法律和人工智能专家的协作努力,我们将法学硕士的法律能力分为三个层次:基本法律自然语言处理能力、基本法律应用能力和复杂法律应用能力。我们已完成了第一阶段的评估,主要关注基本法律自然语言处理能力。评估结果显示,尽管一些法学硕士在性能上优于它们的基础模型,但与 ChatGPT 相比仍存在差距。我们的基准测试可以在 URL 上找到。