- 使用精调预训练的大型语言模型进行法律文件起草
通过在大量无标注的法律文件上进行微调,利用本地计算机上的预训练的大规模语言模型可以实现生成法律文件草案的任务,并同时保护信息隐私和提高信息安全性。
- 揭示司法程序中的主题:使用主题建模对来自印度和英国的法律文件进行跨国研究
使用主题建模算法(如 Latent Dirichlet Allocation、非负矩阵分解和 Bertopic)对来自印度和英国的大量法律文件进行了案例注释,并对印度案例的时间线进行了分析,以识别不同司法管辖区中主要主题的演变。
- 复杂文档分类:比较定制解决方案与大型语言模型
寻找最佳的自动分类方法来对一组复杂的法律文件进行分类,研究使用经过微调的大型语言模型是否能够达到定制训练模型的准确性,并确定所需的微调量。
- ACLU-CREAT: 无监督事件提取的无人干预案例检索
本文提出了一个新的国际优化的先前案例检索方法 (IL-PCR),通过构建一种基于事件提取的无监督检索方法(U-CREAT), 与 BM25 相比,结果显示 U-CREAT 显著提高了检索性能,并使检索速度显着更快
- 基于自动数据丰富的越南法律问答系统改进
本文介绍了利用弱标记的数据提高语言模型质量的方法,并实现了越南文章级别的基于检索的法律问答系统以应对低资源语言的挑战。经过多方面的实验,结果表明所提出的技术是有效的。
- 利用上下文化大语言模型理解法律文件
针对印度等人口密集的国家法律案件增长的问题,本论文提出了解决该问题的有效技术 ——SemEval-2023 任务 6:理解法律文本的系统,该系统利用 Legal-BERT-HSLN 模型和 Legal-LUKE 模型预测法律文件的修辞角色和 - EMNLP法律语言中代理人特定义务模态检测
LEXDEMOD 是一份包含英语合同注释的语料库,其标注了关于合同方或代理人的义务性情态语气以及情态触发器,用于支持法律领域中自然语言理解。使用基于 Transformer 的语言模型,我们在 LEXDEMOD 上进行了两个任务的基准测试, - EMNLP面向统计法律分析的数据高效端到端信息提取
该研究介绍了一种用于法律文件信息抽取的端到端系统,实验结果表明,该系统可以在少于 50 个训练样本的情况下比基于规则的基线方法得到更好的结果,并且使用 200 个样本可以得到更高的得分,并且使用这个系统从醉酒驾驶和欺诈两个案例类别的 3.5 - ArgLegalSumm: 利用论点挖掘改进法律文件的抽象摘要
本文提出了一种将论证角色标注集成到摘要生成过程中以捕捉法律文件的论证结构的简单技术。使用预训练的语言模型进行的实验表明,我们提出的方法比强基线表现更好。
- AAAI法律领域的细粒度意图分类
本文介绍了一个由 93 份涉及谋杀、土地纠纷、抢劫和腐败等案件类别的法律文书数据集,其中对于表达与文件类别相对应的意图的短语进行了注释,并为每个这样的短语注释了细粒度意图,最后分析了基于 Transformer 模型在自动提取意图短语(包括 - ACLHLDC: 印地語法律文件語料庫
本文介绍了一个 Hindi Legal Documents Corpus (HLDC) 的语料库,它包含了超过 900K 的清理和结构化的印地语法律文件。通过使用该语料库,我们引入了保释预测的任务,并使用了多任务学习(MTL)模型作为主要任 - 提高法律文本处理中的注意力神经网络
通过实验验证,着重介绍了改进注意力神经网络在自动法律文件处理方面的主要成果,但普遍的自然语言处理模型对于特殊领域如法律文件的适应性仍有挑战。
- 用于自动化结构化法律文件的语料库
本文介绍一种用于处理法律文档的语料库以及基于该语料库训练的模型,可自动预测法律文档中的修辞角色,进而提高摘要和法律判决预测的性能,并在本文中发布了此语料库和基线模型代码。
- 衡量法律随时间的演变:一种基于网络分析框架的方法,应用于美国和德国的法令和法规
本文提供了一个多维动态文档网络分析的全面框架,并将其应用于跨越 20 年的美国和德国法规数据集,发现美国法律系统越来越多地由法规统治,而德国法律系统仍由法令统治。
- BERT 进入法学院:量化获取大型法律语料库在合同理解中的竞争优势
本研究在法律文件上 fine-tuning BERT 模型具有优势,由于获取庞大的法律语料库的机密性质具有挑战性,因此这项成果对于商业协议的分析具有重要意义,并为合同分析的商业应用和学术研究提供了竞争优势。
- ACL合同的简明英文概述
该研究旨在以简单易懂的语言对单方面合同,如使用条款等,进行摘要,以帮助用户更好地理解他们正在接受的条款,并呼吁资源和技术的开发以简化和转换法律语言。