CuRIAM: 美国最高法院意见书中的语料库重新解释和元语言
本文介绍一种用于处理法律文档的语料库以及基于该语料库训练的模型,可自动预测法律文档中的修辞角色,进而提高摘要和法律判决预测的性能,并在本文中发布了此语料库和基线模型代码。
Jan, 2022
我们介绍了以色列议会辩论记录的语料库,包括从 1998 年到 2022 年以色列议会中所有主要和委员会的记录,共有 3000 万句子(超过 3.84 亿个单词)。句子注有形态 - 句法信息,并与我们编制的一个议员和派别的大数据库相关的详细元信息。我们讨论了语料库的结构和组成,以及我们应用于它的各种处理步骤。为了演示这个新颖数据集的效用,我们提出了两个使用案例。我们展示了该语料库可以用于研究政治讨论风格的历史发展,通过展示辩论中词汇丰富度随时间的减少。我们还研究了男性和女性发言人之间的一些风格差异。这些使用案例展示了该语料库揭示以色列社会重要趋势的潜力,支持语言学、政治学、传媒学、法学等领域的研究。
May, 2024
本文使用自然语言处理技术,比较了基于关键词和逻辑运算符的传统方法与基于 Claude 2 大型语言模型的创新方法,在英国法院裁决案例的大语料库中提取总结性判决案例。结果表明,大语言模型的加权 F1 得分为 0.94,而关键词法的得分仅为 0.78,说明大语言模型在捕捉法律语言中的细微差别方面更加有效。本文展示了先进自然语言处理技术在核心法律研究任务中的应用,并且阐明了这些技术如何填补系统性差距并提升法律信息的可获取性。同时,我们分享了提取的数据集度量,以支持进一步的总结性判决研究。
Mar, 2024
本文介绍了一个为德语文本开发的标注方案和标注工具,旨在基于论述结构进行表征,同时还允许其他表征的提取。本文还讨论了一些方法论问题和现象分析,并重点介绍了在项目中开发的工具及其应用。
Jul, 1998
介绍了剑桥法律语料库(CLC),这是一个用于法律人工智能研究的语料库。该语料库包括超过 25 万个来自英国的法庭判例,涵盖了从 16 世纪至 21 世纪的案件。该论文介绍了该语料库的第一个版本,并提供 638 个案例的案件结果注释,以作为使用 GPT-3、GPT-4 和 RoBERTa 模型进行案件结果提取的基准。该论文还包括了广泛的法律和伦理讨论,以解决这一材料可能具有的敏感性。因此,该语料库仅在特定限制下释放供研究目的使用。
Sep, 2023
本文提出了一种新的法律文件语料库,标注了 13 个语义连贯性单元标签(称为修辞角色),并使用该语料库进行了深度学习模型,其中包括多任务学习的实验,以自动处理法律文件并将其分成相关信息单元。
Dec, 2021
欧洲人权法院的最终判决由于多语言的口头听证会不被转录、结构化或标注发言人而无法回答法律研究中的问题,通过与相应的最终判决文件相关联的英语、法语和其他法庭语言的 154 个完整听证会(来自 267 小时的视频镜头,共 210 万个标记)的 LaCour!文本口头辩论语料库填补了这一基本空白。
Dec, 2023
描述了 IMPACT-es 历史西班牙语语料库和相应词汇表,其中包括 8 百万个单词和 1 万多个单词和他们在文件中的各种变体的链接。介绍了基于文本编码倡议的标准和标注标准,并说明了利用统计机器翻译技术推断概率上下文敏感规则的应用。
Jun, 2013
本文提出了一种基于语言模型的信息检索算法框架的新方法,并将类似文档群的信息整合进去以提高检索效果;实验结果表明,即使是此新方法中的较简单算法也能优于标准语言模型方法,并且我们的新插值算法在所有测试语料库中均能显著提高精度和召回率表现。
May, 2004