利用上下文化大语言模型理解法律文件
该论文探讨了 Legal NLP 领域的研究,分析了 SemEval 举办的 LegalEval 任务的三个子任务:语言角色标注,法律实体识别和法院判例预测,并总结了 26 个团队的研究成果。
Apr, 2023
利用神经网络和传统检索模型,我们参加了 COLIEE-2022 律师案例比赛的任务 1 和任务 2,结果在所有团队中排名第五。实验结果表明,传统的检索模型 BM25 仍然优于神经网络模型。
Apr, 2022
本研究以 SemEval-2023 的 LegalEval 任务为基础,集中研究了法律命名实体识别、法院判决预测和带解释的法院判决预测等三个子任务,并通过各种实验详细展示了结果、数据统计和方法论。
Oct, 2023
本文探讨了使用图卷积网络和标签传播算法等基于图的方法以及变种的 BERT 等变压器为基础的方法,在执行 SemEval 任务 6 的过程中进行了修辞角色标注任务,以理解印度法律文件并提高复杂法律文档的文本分类准确性得分。
May, 2023
基于预训练语言模型(PLMs)和文档内句子位置信息知识的改进模型,自动预测法律意见书的修辞角色。通过在 LegalEval@SemEval2023 比赛注释的语料库上验证,我们的方法需要更少的参数,计算成本也更低,同时实现了出色的性能。此外,我们展示了在基于 BERT 的局部上下文的分层模型中增加更多注意力并结合句子位置信息会增强结果。
Oct, 2023
本文介绍了利用命名实体提取技术和双向 LSTM 模型结合 Flair 嵌入对印度法院文本进行标注的实验,并公开了 BIO 格式的数据集。
Jun, 2023
通过使用多级编码器层次框架(MESc)以及大型语言模型和无监督聚类方法,我们研究了在没有结构注释的情况下,从大型法律文件中预测裁决的问题,并测试了这些方法在法律领域的转移学习能力和效果,我们的方法相较于之前的最先进方法取得了至少 2 个性能指标的增益。
Mar, 2024
本文总结了团队 SCaLAR 在《SemEval-2024 任务 5:民事诉讼中的法律论证》方面的工作。我们提出了一种简单而又新颖的基于相似度和距离的无监督方法来生成标签,以解决该二元分类任务。此外,我们通过使用 CNN、GRU 和 LSTM 等集成特征和多级融合的 Legal-Bert 嵌入来探索解决法律文本复杂性的问题。为了解决数据集中冗长的法律解释,我们引入了基于 T5 的分段摘要,成功保留了关键信息,提高了模型的性能。我们的无监督系统在开发集上的宏 F1 得分增加了 20 个百分点,在测试集上增加了 10 个百分点,这是一个令人鼓舞的结果,考虑到其简单的架构。
Mar, 2024
本研究提出了一种基于 transformer 网络和结构化文本分割的方法来预测跨越多个段落的连续文本段落的主题连贯性,以更有效地满足用户特定的信息需求,研究结果表明,此方法显著优于基线,并适应法律文件的结构特点。
Dec, 2020
人工智能和大型语言模型的进步正在给法律领域的自然语言处理任务带来深刻的转变。大型语言模型在法律部门展示出越来越多独特的优势和各种挑战。本调查研究了大型语言模型与法律系统之间的协同作用,例如在法律文本理解、案例检索和分析等任务中的应用。此外,该调查还突出了大型语言模型在法律领域面临的关键挑战,包括偏见、可解释性和道德考虑,以及研究人员如何解决这些问题。调查展示了针对不同法律体系量身定制的最新进展,以及用于各种语言的大型语言模型微调的法律数据集。此外,它提出了未来研究和发展的方向。
Apr, 2024