Feb, 2024

DistALANER:在开源软件生态系统中增强的基于远程监督的主动学习命名实体识别

TL;DR本文提出了一种新的命名实体识别(NER)技术,专门针对开源软件系统。我们的方法通过使用全面的两步远程监督注释过程来解决注释软件数据的稀缺性问题。该方法战略性地利用语言启发式方法、唯一的查找表、外部知识源和主动学习方法。通过利用这些强大的技术,我们不仅提高了模型的性能,还有效地克服了成本和专家注释者的稀缺性方面的局限性。值得注意的是,我们的框架在很大程度上超越了现有技术的领先水平。我们还展示了 NER 在下游关系抽取任务中的有效性。