Mar, 2024

CO-Fun: 一个用于命名实体识别和关系抽取的德国公司外包基金招股说明书数据集

TL;DR通过对具有金融实体和服务提供者关系的网络映射过程的研究,我们介绍了一个针对德国基金募集说明书中公司外包实践的数据集,该数据集专门用于命名实体识别和关系提取任务。我们对 948 个句子进行了标记,并由三名专家进行了标注,共获得了 5,969 个四种实体类型(外包、公司、地点和软件)和 4,102 个关系注释(外包 - 公司、公司 - 地点)。我们训练了最先进的深度学习模型来识别实体和提取关系,初步取得了有希望的结果。该数据集的匿名版本、指南以及用于模型训练的代码均可在此链接中公开获取。