AGB-DE：用于对德国消费合同条款进行自动法律评估的语料库

Jun, 2024

AGB-DE：用于对德国消费合同条款进行自动法律评估的语料库

AGB-DE: A Corpus for the Automated Legal Assessment of Clauses in German Consumer Contracts

Daniel Braun, Florian Matthes

TL;DR介绍了一个包含 3764 个德国消费者合同从业条款的 AGB-DE 语料库，并对检测潜在无效从句的任务进行了首次基线评估，结果显示该任务的挑战性，并指出理解复杂从句是其中的主要挑战之一。

Abstract

legal tasks and datasets are often used as benchmarks for the capabilities of language models. However, openly available annotated

legal tasks datasets language models german consumer contracts void clauses

发现论文，激发创造

用于命名实体识别的德语法律文件数据集

该论文介绍了一份为德国联邦法院判决中开发的命名实体识别数据集，包含约 67,000 个句子和超过 2,000,000 个标记，共标注了 54,000 个实体，涵盖了 19 个细粒度的语义类别，同时还有超过 35,000 个基于 TimeML 的时间表达式的辅助标注。该数据集可用于训练用于德国法律文件的 NER 服务，已在 EU 项目 Lynx 中发布，并遵循 CC-BY 4.0 许可协议。

Mar, 2020

德语自动易读性评估和文本简化语料库

该研究提供了一个从网络资源中编制而来的德语语料库，可用于自动易读性评估和自动文本简化，并包含文字结构、排版和图片信息，可以作为机器学习方法中易读性评估和文本简化的一部分。本研究重点关注将此信息作为现有语料库标准的扩展。

Sep, 2019

MAUD：用于并购协议理解的专家注释法律自然语言处理数据集

本研究介绍了基于美国律师协会的 2021 年公共目标交易要点研究的 Merger Agreement Understanding 数据集，通过专家注释读解的法律文本可以提高阅读理解的准确性，其中 Transformer 基线对大多数问题的表现良好，而对于大部分问题仍有改进的空间。

Jan, 2023

CUAD: 一个专家注释的法律合同审查自然语言处理数据集

利用 Contract Understanding Atticus 数据集，研究团队尝试解决法律领域深度学习中的困境，发现 Transformer 模型存在潜在的问题，并将其作为专业 NLP 研究领域的挑战性基准。

Mar, 2021

一个德国报纸文本的语言解释语料库

本文介绍了一个为德语文本开发的标注方案和标注工具，旨在基于论述结构进行表征，同时还允许其他表征的提取。本文还讨论了一些方法论问题和现象分析，并重点介绍了在项目中开发的工具及其应用。

Jul, 1998

BERT 进入法学院：量化获取大型法律语料库在合同理解中的竞争优势

本研究在法律文件上 fine-tuning BERT 模型具有优势，由于获取庞大的法律语料库的机密性质具有挑战性，因此这项成果对于商业协议的分析具有重要意义，并为合同分析的商业应用和学术研究提供了竞争优势。

Nov, 2019

条款与条件合同中相关条款的注释与分类

该研究使用新的注释方案，将条款与条件合同中的不同类型从句子进行分类，旨在帮助法律专家快速识别和评估此类型法律文件中的问题。研究结果表明，通过在多语言 T5 和两种意大利 BERT 模型上进行少样本预训练，可以实现对分类的自动化，精度在 0.79 到 0.95 之间。

Feb, 2024

德语论证写作支持语料库

本文提供了一种新颖的注释方法，以捕获德语商业模型学生写作的有关论点和前提以及它们之间的关系，并通过 50 篇说服性文章上的标注研究来评估我们的注释方案，呈现了我们的免费语料库以及指南，以鼓励未来针对学生的论述写作支撑系统的设计和开发的研究。

Oct, 2020

德语文本复杂度的主观评估数据集

该研究提供了 TextComplexityDE 数据集，其中包括 1000 个句子，采自不同领域的 23 篇德文维基百科文章，用于开发文本复杂性预测模型和德语自动文本简化。该数据集包括由德语学习者在 A 和 B 级别提供的不同文本复杂度方面的主观评估，此外，还包括了由母语德语者提供的 250 个句子的手动简化以及目标群体参与者对简化后句子的主观评估。主观评级使用实验室研究和众包方法进行收集。

Apr, 2019

合同发现：数据集和具有竞争基线的少样本语义检索挑战

该论文提出了一个新的共享任务来从法律文本中进行语义检索，并给出了在这个方法框架下提出的多个解决方案的评估。此外，针对文本片段相关性检测准确度的问题，提出了一些策略。最终，该论文展示了在法律领域专门化的语言模型方面的成果，这些模型已经公开。

Nov, 2019