增强的大型语言模型(GPT-4)用于解释法律概念
本文评估了生成式预训练转换 (GPT-4) 对高度专业领域的文本数据分析任务的能力,特别关注分析法院裁决以解释法律概念的任务。我们发现,在注释指南的提示下,GPT-4 的表现与经过良好培训的法律学生注释器相当。我们发现,虽然性能略有下降,但 GPT-4 可以进行批量预测,从而降低成本。然而,采用连贯思维提示并没有在此任务上明显提高性能。此外,我们演示了如何分析 GPT-4 的预测,以识别和减轻注释指南的缺陷,进而提高模型的性能。最后,我们观察到该模型非常脆弱,因为提示中的小型格式相关更改对预测结果影响很大。这些发现可被从事高度专业领域任务的文本语义 / 语用注释的研究人员和实践者利用。
Jun, 2023
这篇论文通过对英国雇佣法庭(UKET)案件中使用 GPT-4 进行自动信息提取的综合研究,展示了语言模型在法律信息提取方面的高精度和潜力,并对工具开发提供了指导。
Mar, 2024
研究了大型语言模型在法律领域的应用,通过设计基于大型语言模型的实用基准解决方案,并在法律判决预测任务上测试,发现类似案例和多项选择选项对大型语言模型的领域知识回忆至关重要,同时也揭示了信息检索系统在某些情况下超过了大型语言模型与信息检索系统的组合,从而使大型语言模型的角色变得多余。
Oct, 2023
本文研究了大型语言模型(如 GPT-4)存在的挑战,特别是在回答复杂问题时容易出现错觉、逻辑错误和错误结论的问题。语言模型能以一种连贯且语义严谨的方式呈现错误答案的能力进一步增加了发现事实不准确性的困难。这个问题在需要专业知识的领域尤为明显。我们的工作深入探讨了这些挑战,旨在增强对此类错误的理解和缓解,从而提高科学和其他专业领域中 LLMs 的准确性和可靠性。我们的研究结果揭示了上下文相关性与答案质量之间的非线性关系。此外,我们证明了在正确校准的情况下,可能实现自动评分 —— 这一发现表明,至少在某种程度上,LLMs 可以用于自我检验其性能质量。最后,我们描述了一个实验平台,可以被视为对本文描述的技术的概念验证。
Dec, 2023
本文利用心理学方法探讨 GPT-4 在道德和法律推理方面与人类之间的相似性和差异性,发现人类和 AI 回答之间存在高度相关性,但也存在一些显著的系统性差异,并讨论了研究结果的哲学意义。
Aug, 2023
对 COLIEE 任务 4 数据集中 Heisei 18(2006 年)到 Reiwa 3(2021 年)的日本法律文本具体判断能力的 GPT-3.5(ChatGPT)和 GPT-4 模型的分析揭示了模型在处理法律文本具体性任务方面的优点、缺点和性能模式,为未来优化 GPT-based 模型并在法律信息提取和具体性应用中成功采用奠定了基础。
Sep, 2023
大型语言模型可以提高对法律系统的访问,但是目前很少有关于它们在进行法律任务方面有效性的实证研究。本研究以涉及加密货币的证券案件为背景,研究了语言模型的法律推理和起草能力。我们使用真实案例的情节喂给 GPT-3.5,并评估其确定正确违规行为的能力。研究发现,GPT-3.5 的法律推理能力较弱,但在法律起草方面表现更好。虽然目前无法取代律师,但这些模型的起草能力可以通过降低法律服务成本,为更多人提供司法公正的机会。本研究是第一个系统研究大型语言模型在诉讼、证券法和加密货币相关不当行为中的法律起草和推理能力的研究。
Aug, 2023
LawGPT 是第一个专门为中国法律应用设计的开源模型,通过在大规模中国法律文件上进行法律导向的预训练和法律指导下的精细调优,LawGPT 在下游法律任务的表现优于开源模型 LLaMA 7B。
Jun, 2024
综合研究了一阶段询问大型预训练生成变压器(GPT-3.5-turbo)在法律案件的修辞角色预测任务中的引诱技术,通过零 - 少例、任务说明、文本上下文和问题推理等策略,提出模型性能的改进方案。
Oct, 2023