Jan, 2022

数字日记档案中的命名实体识别 “Prozhito

TL;DR该研究旨在填补以新闻、研究论文、维基百科为主的命名实体识别数据集的多个空白领域,通过在俄语口述日记文本中创建名为 “Razmecheno” 的新数据集,该数据集包含 1331 个句子和 14119 个标记,并标记了人物,特征,位置,组织和设施等五种命名实体识别的常用实体类型。我们使用众包平台 Yandex.Toloka 进行了数据标注,并通过 NER 工具和微调预训练的上下文编码器进行了实证评估。