预训练抽象模型和 LLMs 在法律案件判决摘要方面的准备程度如何?
本文对不同类型的文本摘要模型(如抽取式与生成式模型)在法律文本中的表现进行分析,特别是将最近的基于 transformer 的生成式摘要模型应用于法律文本摘要时,由于法律文档非常长,必须考虑这些模型的限制。同时,本文还提供了在针对法律文档进行摘要系统评估方面的一些有用结论。
Oct, 2022
利用大型语言模型进行相关判决的准确性研究,提出了一种适用于法律案例相关判决的新型工作流程,并通过与人工专家判断的比较,证明了该工作流程可以获得可靠的相关判决,并通过大型语言模型生成的数据综合增强现有的法律案例检索模型的能力。
Mar, 2024
该研究提出了一种在印度法律文本中标准化文本的方法,并测试了两种最先进的专业无关模型用于法律文本摘要。通过领域专家的评估和 ROUGE 指标的使用,结果表明所提出的文本标准化方法在专业无关模型中的效果很好。
Jun, 2022
本文使用自然语言处理技术,比较了基于关键词和逻辑运算符的传统方法与基于 Claude 2 大型语言模型的创新方法,在英国法院裁决案例的大语料库中提取总结性判决案例。结果表明,大语言模型的加权 F1 得分为 0.94,而关键词法的得分仅为 0.78,说明大语言模型在捕捉法律语言中的细微差别方面更加有效。本文展示了先进自然语言处理技术在核心法律研究任务中的应用,并且阐明了这些技术如何填补系统性差距并提升法律信息的可获取性。同时,我们分享了提取的数据集度量,以支持进一步的总结性判决研究。
Mar, 2024
为了解决多个司法管辖区缺乏数据集的问题,我们提出了 CLSum,这是用于总结多司法管辖区普通法法院判决文件的第一个数据集。此外,本文还首次采用基于大型语言模型(LLM)的数据增强、摘要生成和评估方法来进行法院判决摘要研究,实验证明 LLM 方法在少样本和零样本设置下能够表现良好,同时本文还进行了全面的对比实验,找到能够提高摘要性能的关键模型组成部分和设置。
Mar, 2024
面向法律专业人员的,将自动摘要技术应用于长篇法律文书以便满足用户多样化信息需求的研究,引入了一种来自欧洲人权法庭司法管辖区域的面向方面的法律案例决策摘要的新数据集(LexAbSumm),并且通过评估针对长篇文档进行调整的多种生成性摘要建模方法揭示了这些模型在生成方面特定摘要上的挑战,以促进法律领域方面的摘要研究。
Mar, 2024
本文探讨如何在低资源情况下,使用深度神经网络等技术进行长篇法律文件的自动摘要,本文提出了一种基于 GPT-2 的算法,基于语言模型的困惑度,识别出最具有表现力的句子,在提取摘要时提供有效支持,并且该方法胜过了全球其他对手的显著度检测基线。
Mar, 2021
提出了一种基于领域知识的无监督算法 DELSumm 来实现自动化法律文书摘要,该算法在印度最高法院的案例文件上的实验表明,该算法在 ROUGE 分数方面优于多个强基线,包括基于通用算法和专业法律算法,尽管该算法没有监督学习,但胜过了多个训练了数千个文件摘要对的监督式算法模型。
Jun, 2021
本文提出了一种基于深度学习的有效自动案例总结系统,该系统利用最先进的自然语言处理技术,提供了监督和无监督方法来生成简洁且相关的冗长法律案例文件的摘要。用户友好的界面允许用户浏览系统的法律案例库,选择所需案例,并选择他们偏好的总结方法。该系统为法律文本的每个小节以及整体生成全面的摘要。该演示简化了法律案例文档分析,可能通过减轻工作量和提高效率从而使法律专业人员受益。未来的工作将集中在改进摘要技术并探索将我们的方法应用于其他类型的法律文本。
Dec, 2023
通过对十种不同的预训练方法、提示和模型规模的大型语言模型进行人类评估,我们发现指导调整而不是模型规模是 LLM 的零样本摘要能力的关键,并通过从自由职业作家收集的高质量摘要进行人类评估,得出 LLM 摘要被认为与人类撰写的摘要相媲美的结论。
Jan, 2023