Aug, 2023

噪音鲁棒学习的软件实体识别

TL;DR通过利用维基百科分类法,建立一个拥有79K个软件实体和12种详细类型的全面实体词典以及一个包含1.7M个句子的大型标注数据集,我们提出了自我正则化的软件实体识别(SER)模型训练方法,能够克服语料库中噪音和训练数据不足的问题,并在维基百科和两个Stack Overflow基准测试中展现了优于基准模型和现有方法的性能。我们公开了我们的模型、数据和代码,以供未来研究使用。