CuRIAM: 美国最高法院意见书中的语料库重新解释和元语言

May, 2023

CuRIAM: 美国最高法院意见书中的语料库重新解释和元语言

CuRIAM: Corpus re Interpretation and Metalanguage in U.S. Supreme Court Opinions

Michael Kranzlein, Nathan Schneider, Kevin Tobia

TL;DR本文基于美国最高法院的一份判决文书，提出了一种用于分类法律元语言类型的注释模式，并发现了法官在使用法律元语言方面的几种模式。

Abstract

Most judicial decisions involve the interpretation of legal texts; as such, judicial opinion requires the use of language as a medium to comment on or draw attention to other language. Language used this way is called m

judicial decisions legal interpretation metalanguage annotation schema supreme court opinions

发现论文，激发创造

用于自动化结构化法律文件的语料库

本文介绍一种用于处理法律文档的语料库以及基于该语料库训练的模型，可自动预测法律文档中的修辞角色，进而提高摘要和法律判决预测的性能，并在本文中发布了此语料库和基线模型代码。

Jan, 2022

以色列议会语料库：希伯来议会会议的注释语料库

我们介绍了以色列议会辩论记录的语料库，包括从 1998 年到 2022 年以色列议会中所有主要和委员会的记录，共有 3000 万句子（超过 3.84 亿个单词）。句子注有形态 - 句法信息，并与我们编制的一个议员和派别的大数据库相关的详细元信息。我们讨论了语料库的结构和组成，以及我们应用于它的各种处理步骤。为了演示这个新颖数据集的效用，我们提出了两个使用案例。我们展示了该语料库可以用于研究政治讨论风格的历史发展，通过展示辩论中词汇丰富度随时间的减少。我们还研究了男性和女性发言人之间的一些风格差异。这些使用案例展示了该语料库揭示以色列社会重要趋势的潜力，支持语言学、政治学、传媒学、法学等领域的研究。

May, 2024

LLM 与律师：在大型英国案例法律数据库中识别摘要判决的子集

本文使用自然语言处理技术，比较了基于关键词和逻辑运算符的传统方法与基于 Claude 2 大型语言模型的创新方法，在英国法院裁决案例的大语料库中提取总结性判决案例。结果表明，大语言模型的加权 F1 得分为 0.94，而关键词法的得分仅为 0.78，说明大语言模型在捕捉法律语言中的细微差别方面更加有效。本文展示了先进自然语言处理技术在核心法律研究任务中的应用，并且阐明了这些技术如何填补系统性差距并提升法律信息的可获取性。同时，我们分享了提取的数据集度量，以支持进一步的总结性判决研究。

Mar, 2024

一个德国报纸文本的语言解释语料库

本文介绍了一个为德语文本开发的标注方案和标注工具，旨在基于论述结构进行表征，同时还允许其他表征的提取。本文还讨论了一些方法论问题和现象分析，并重点介绍了在项目中开发的工具及其应用。

Jul, 1998

LiMe：晚期中世纪刑事句子的拉丁语语料库

该论文介绍了 LiMe 数据集，这是一个由专家进行详细注解的 325 份文档的语料库，用于掩码语言模型和监督式自然语言处理任务。

Apr, 2024

剑桥法律语料库：法律人工智能研究的语料库

介绍了剑桥法律语料库（CLC），这是一个用于法律人工智能研究的语料库。该语料库包括超过 25 万个来自英国的法庭判例，涵盖了从 16 世纪至 21 世纪的案件。该论文介绍了该语料库的第一个版本，并提供 638 个案例的案件结果注释，以作为使用 GPT-3、GPT-4 和 RoBERTa 模型进行案件结果提取的基准。该论文还包括了广泛的法律和伦理讨论，以解决这一材料可能具有的敏感性。因此，该语料库仅在特定限制下释放供研究目的使用。

Sep, 2023

通过修辞角色进行法律文件的语义分割

本文提出了一种新的法律文件语料库，标注了 13 个语义连贯性单元标签（称为修辞角色），并使用该语料库进行了深度学习模型，其中包括多任务学习的实验，以自动处理法律文件并将其分成相关信息单元。

Dec, 2021

LaCour!: 在欧洲人权法院的听证会上研究辩论技巧

欧洲人权法院的最终判决由于多语言的口头听证会不被转录、结构化或标注发言人而无法回答法律研究中的问题，通过与相应的最终判决文件相关联的英语、法语和其他法庭语言的 154 个完整听证会（来自 267 小时的视频镜头，共 210 万个标记）的 LaCour！文本口头辩论语料库填补了这一基本空白。

Dec, 2023

历史西班牙语开放式历时语料库：标注标准和自动化拼写现代化

描述了 IMPACT-es 历史西班牙语语料库和相应词汇表，其中包括 8 百万个单词和 1 万多个单词和他们在文件中的各种变体的链接。介绍了基于文本编码倡议的标准和标注标准，并说明了利用统计机器翻译技术推断概率上下文敏感规则的应用。

Jun, 2013

语料库结构、语言模型和即席信息检索

本文提出了一种基于语言模型的信息检索算法框架的新方法，并将类似文档群的信息整合进去以提高检索效果；实验结果表明，即使是此新方法中的较简单算法也能优于标准语言模型方法，并且我们的新插值算法在所有测试语料库中均能显著提高精度和召回率表现。

May, 2004