Mar, 2020

用于命名实体识别的德语法律文件数据集

TL;DR该论文介绍了一份为德国联邦法院判决中开发的命名实体识别数据集,包含约 67,000 个句子和超过 2,000,000 个标记,共标注了 54,000 个实体,涵盖了 19 个细粒度的语义类别,同时还有超过 35,000 个基于 TimeML 的时间表达式的辅助标注。该数据集可用于训练用于德国法律文件的 NER 服务,已在 EU 项目 Lynx 中发布,并遵循 CC-BY 4.0 许可协议。