用于命名实体识别的德语法律文件数据集

Mar, 2020

用于命名实体识别的德语法律文件数据集

A Dataset of German Legal Documents for Named Entity Recognition

Elena Leitner, Georg Rehm, Julián Moreno-Schneider

TL;DR该论文介绍了一份为德国联邦法院判决中开发的命名实体识别数据集，包含约 67,000 个句子和超过 2,000,000 个标记，共标注了 54,000 个实体，涵盖了 19 个细粒度的语义类别，同时还有超过 35,000 个基于 TimeML 的时间表达式的辅助标注。该数据集可用于训练用于德国法律文件的 NER 服务，已在 EU 项目 Lynx 中发布，并遵循 CC-BY 4.0 许可协议。

Abstract

We describe a dataset developed for named entity recognition in German federal court decisions. It consists of approx. 67,000 sentences with over 2 million tokens. The resource contains 54,000 →

named entity recognition german federal court decisions dataset manually annotated entities timeml-based time expressions

发现论文，激发创造

E-NER -- 一份法律文本的命名实体识别注释语料库

本研究主要介绍了一个公共的法律命名实体识别数据集 E-NER，它表明将通用英语文本数据集训练的命名实体识别模型应用于法律文本会导致重大的性能下降，与在 E-NER 数据集上训练和测试相比，F1 分数下降了 29.4％至 60.4％。

Dec, 2022

为塔加洛语开发命名实体识别数据集

我们为塔加洛语开发了一个命名实体识别（NER）数据集，填补了菲律宾语言中 NER 资源匮乏的空白。文本来源于包含新闻报道的预训练语料库，并由母语人士迭代标注。该数据集包含约 7.8k 个文档，涵盖人名、组织和地点三个实体类型。我们还在有监督学习和迁移学习环境中对最先进的方法进行了广泛的实证评估。最后，我们公开发布了数据和处理代码，以激励未来在塔加洛语自然语言处理方面的研究工作。

Nov, 2023

德国 BERT 法律命名实体识别模型

本研究 fine-tune 了一个受欢迎的德语 BERT 语言模型，用于 Legal Entity Recognition（LER）数据集，结果表明我们的模型在 LER 任务上表现比 BiLSTM-CRF+ 模型更优，并通过 HuggingFace 对外公开。

Mar, 2023

印度法院裁决的命名实体识别

本文介绍了一个包含 14 种法律实体类型的 46545 个已注释的法律命名实体语料库，同时构建了一个提取法律命名实体的基准模型。

Nov, 2022

一个用于命名实体识别的芬兰新闻语料库

本文提供一份芬兰新闻文章语料库，其中包含 953 篇来自 Digitoday 技术新闻平台的文章（共 193742 个单词标记），其中涵盖六种命名实体类别；并对该语料库在两个测试集中使用基于规则与两种深度学习系统进行了基础实验。

Aug, 2019

MSNER：一个用于命名实体识别的多语言语音数据集

该研究介绍了 MSNER，一个多语种语音语料库，用于命名实体识别，并提供了用于训练、验证和评估的数据集，同时推出了一个高效的标注工具。

May, 2024

HiNER：一个大规模的印地语命名实体识别数据集

该论文发布了一份标准符合的，包含 109,146 句子和 2,220,856 个标记的 Hindi NER 数据集，并使用不同的语言模型对其进行了评估，表明其对于 NLP 在 Hindi 方面有着重要的作用。

Apr, 2022

中文文学文本的语篇级别命名实体识别和关系抽取数据集

本文构建了一个基于语篇水平的汉语文学语料库，提出两种标记方法来解决数据不一致性的问题，并介绍了几种常用模型进行实验，研究结果不仅展示了该数据集的可用性，而且为进一步的研究提供了基线。

Nov, 2017

CDJUR-BR -- 巴西司法的黄金法律文档收藏，包含细粒度命名实体

本文描述了巴西司法部的金标准收录（CDJUR-BR）的发展，其中包含了专家在法律文件中注释的一系列细粒度命名实体，并提供了一个基于 BERT 模型的 NER，其结果表明 CDJUR-BR 的优越性。

May, 2023

巴伐利亚方言数据中的命名实体识别

这篇论文介绍了第一个巴伐利亚方言命名实体识别（NER）数据集 BarNER，使用巴伐利亚维基百科文章和推文进行注释，研究了德语西班牙标准 NER 数据集以及巴伐利亚 NER 结果的实验并提出了巴伐利亚 NER 结果的首次综合研究结果。

Mar, 2024