使用大型语言模型自动提取雇佣仲裁判决中的信息
该文章介绍了使用 GPT-4(一个大型语言模型)快速可行性研究来(半)自动化系统性综述中的数据提取,在设计和评估 LLM-based 自动化工具方面仍然存在欠缺的问题。
May, 2024
对 GPT-4 在生成有关立法术语方面的准确性、清晰性和相关性上的表现进行评估。与基准设置相比,采用法律信息检索模块提供以前案例中的语句作为模型的上下文可以获得更好的结果,从而可以自主检索相关案例,并将这些案例中有用的语句压缩成有用的法律解释。
Jun, 2023
研究了大型语言模型在法律领域的应用,通过设计基于大型语言模型的实用基准解决方案,并在法律判决预测任务上测试,发现类似案例和多项选择选项对大型语言模型的领域知识回忆至关重要,同时也揭示了信息检索系统在某些情况下超过了大型语言模型与信息检索系统的组合,从而使大型语言模型的角色变得多余。
Oct, 2023
利用大型语言模型进行相关判决的准确性研究,提出了一种适用于法律案例相关判决的新型工作流程,并通过与人工专家判断的比较,证明了该工作流程可以获得可靠的相关判决,并通过大型语言模型生成的数据综合增强现有的法律案例检索模型的能力。
Mar, 2024
这项研究通过对 GPT-4 在标题 / 摘要筛选、全文审查和数据提取等不同文献类型和语言上的性能测试,发现虽然 GPT-4 在大多数任务上的准确性与人工表现相当,但结果受到偶然一致性和数据集不平衡的影响。调整了这些因素后,GPT-4 在数据提取方面达到了中等水平,而筛选性能则在不同阶段和语言上达到了无到中等的水平。当使用高度可靠的提示筛选全文文献时,GPT-4 的性能几乎完美。对于漏掉了高度可靠提示的关键研究,对 GPT-4 进行惩罚可以进一步提高其性能。我们的研究结果表明,目前在进行系统综述时应谨慎使用 LLM,但对于在可靠提示下完成的特定系统综述任务而言,LLM 可以与人工表现媲美。
Oct, 2023
本文使用自然语言处理技术,比较了基于关键词和逻辑运算符的传统方法与基于 Claude 2 大型语言模型的创新方法,在英国法院裁决案例的大语料库中提取总结性判决案例。结果表明,大语言模型的加权 F1 得分为 0.94,而关键词法的得分仅为 0.78,说明大语言模型在捕捉法律语言中的细微差别方面更加有效。本文展示了先进自然语言处理技术在核心法律研究任务中的应用,并且阐明了这些技术如何填补系统性差距并提升法律信息的可获取性。同时,我们分享了提取的数据集度量,以支持进一步的总结性判决研究。
Mar, 2024
大型语言模型可以提高对法律系统的访问,但是目前很少有关于它们在进行法律任务方面有效性的实证研究。本研究以涉及加密货币的证券案件为背景,研究了语言模型的法律推理和起草能力。我们使用真实案例的情节喂给 GPT-3.5,并评估其确定正确违规行为的能力。研究发现,GPT-3.5 的法律推理能力较弱,但在法律起草方面表现更好。虽然目前无法取代律师,但这些模型的起草能力可以通过降低法律服务成本,为更多人提供司法公正的机会。本研究是第一个系统研究大型语言模型在诉讼、证券法和加密货币相关不当行为中的法律起草和推理能力的研究。
Aug, 2023
在阿拉伯法律分析领域中,我们的研究通过使用现有最先进的大型语言模型,全面预测了一批基于商业法庭真实案例的阿拉伯法院判决。通过评估不同预训练模型和训练方法的性能,并采用不同的评估指标,我们发现基于 GPT-3.5 的模型在所有模型中表现最佳,超过专门针对阿拉伯文的 JAIS 模型平均得分的 50%。同时,我们还发现大语言模型在法院判决预测中的性能评估除了人工评估之外的其他指标都是不一致且不可靠的。本研究为未来的研究奠定了基础,弥合计算语言学与阿拉伯法律分析之间的差距。
Oct, 2023
这项研究评估了两个最先进的大型语言模型(LLMs)与传统神经机器翻译(NMT)系统在法律领域的四种语言对中的机器翻译(MT)质量,结合自动评估度量标准(AEMs)和专业翻译员的人工评估(HE)来评估翻译的排序、流畅性和足够性。结果表明,虽然谷歌翻译在 AEMs 中的表现通常优于 LLMs,但人工评估员认为 LLMs,特别是 GPT-4,在产生上下文足够且流畅的翻译方面略优或相当。这种差异表明 LLMs 在处理专业法律术语和背景方面具有潜力,并突出了人工评估方法在评估 MT 质量方面的重要性。本研究强调了 LLMs 在专业领域的不断进化能力,并呼吁对传统的 AEMs 进行重新评估,以更好地捕捉 LLM 生成的翻译的细微差别。
Feb, 2024