ACLMay, 2020

在 StackOverflow 中进行代码和命名实体识别

TL;DR本文介绍了一个计算机编程领域的新命名实体识别(NER)语料库,包括 15,372 个句子和 20 种细粒度实体类型。我们使用基于 BERToverflow 的训练数据对 BERT 模型进行了改进,并提出了 SoftNER 模型,通过上下文无关代码标记分类器和语料库级特征,可在 StackOverflow 数据集上实现代码和命名实体识别。