复杂文档分类:比较定制解决方案与大型语言模型
该研究引入了一个基于瑞士法律系统的多维 NLP 基准测试,包括长文本处理、领域特定知识拥有、多语言理解、多任务等挑战,该基准测试可以用于测试和推广最先进的 LLMs 模型。
Jun, 2023
本文研究比较了各种机器学习方法,用于将判决分为不同的法律领域,结果表明包括主题模型、词向量和语言模型分类器在内的所有方法都表现良好,但还需要进一步优化这些先进的方法以适应法律领域。
Apr, 2019
通过在大量无标注的法律文件上进行微调,利用本地计算机上的预训练的大规模语言模型可以实现生成法律文件草案的任务,并同时保护信息隐私和提高信息安全性。
Jun, 2024
本研究探讨了大型语言模型在分类公共事务文件中的性能,发现 LLMs 可以有效处理和理解公共事务文件中使用的复杂语言,并可用于处理特定领域的文件,如公共事务文件。
Jun, 2023
通过使用多级编码器层次框架(MESc)以及大型语言模型和无监督聚类方法,我们研究了在没有结构注释的情况下,从大型法律文件中预测裁决的问题,并测试了这些方法在法律领域的转移学习能力和效果,我们的方法相较于之前的最先进方法取得了至少 2 个性能指标的增益。
Mar, 2024
本文使用自然语言处理技术,比较了基于关键词和逻辑运算符的传统方法与基于 Claude 2 大型语言模型的创新方法,在英国法院裁决案例的大语料库中提取总结性判决案例。结果表明,大语言模型的加权 F1 得分为 0.94,而关键词法的得分仅为 0.78,说明大语言模型在捕捉法律语言中的细微差别方面更加有效。本文展示了先进自然语言处理技术在核心法律研究任务中的应用,并且阐明了这些技术如何填补系统性差距并提升法律信息的可获取性。同时,我们分享了提取的数据集度量,以支持进一步的总结性判决研究。
Mar, 2024
本研究使用文本分类和机器学习方法,研究法律专业人员的支持应用。通过实验研究法国最高法院的判决和案件所属法律领域的高准确度预测,发现判决作出的时间对案例描述的形式和数据蒙版的使用会有影响,研究了多个支持向量机分类器的平均概率集成系统,平均 F1 值为 98%,预测案例判决,96% F1 值用于预测案件的法律领域,对于估计判决日期的 F1 值为 87.07%。
Oct, 2017
该研究在法律领域考虑了大规模多标签文本分类,提出了一个适用于 LMTC、few - 和 zero-shot 学习的新数据集 EURLEX,共包含 57k 个法律文档,注释有~4.3k 个 EUROVOC 标签;实验表明,具有标签注意力的 BIGRU 模型优于当前其他最先进的模型;领域特定的 WORD2VEC 和上下文敏感的 ELMO 嵌入进一步提高了性能;研究人员还发现,只考虑文档中的特定区域就足够了,这使得我们可以规避 BERT 的最大文本长度限制,并使用 fine-tune BERT 在所有情况下获得了最佳结果。
Jun, 2019
近期自然语言处理(NLP)在法律领域的应用面临诸多挑战,包括极长的序列长度、专业词汇仅律师才能理解以及数据不平衡。大型语言模型(LLMs)的出现为 NLP 在法律领域提供了新的机会。本研究旨在量化普通 LLMs 与领域特定模型在法律领域的表现,通过比较三个通用 LLMs(ChatGPT-20b,LLaMA-2-70b 和 Falcon-180b)在 LexGLUE 合同条款分类基准测试集上的零样本性能。尽管 LLMs 未经专门训练法律数据,但我们观察到它们在大多数情况下仍能正确分类主题。然而,我们发现它们的微 F1 / 宏 F1 性能比在法律领域微调的较小模型要低 19.2/26.8%,这凸显了需要更强大的法律领域 LLMs。
Nov, 2023
公开可获得的最好的 LLM(如 GPT-4 和 PaLM 2)在律师或律师助理所需的基本文本处理方面表现不佳,我们引入了一个基准来量化这种不良表现,这对于目前的 LLMs 在法律实践中的可靠性提出了疑问。为这些任务进行微调使得一种旧的 LLM 在我们的测试集上接近完美的表现,并提高了与法律相关的任务的表现。这个鲜明的结果凸显了在 LLM 训练中需要更多的领域专业知识。
Nov, 2023