COLINGMar, 2024

ELLEN:高效命名实体识别的极轻度监督学习

TL;DR在这项工作中,我们重新审视了半监督命名实体识别(NER)问题,重点是极度轻量级的监督,包括每类仅包含 10 个示例的词典。我们介绍了 ELLEN,这是一种简单、完全模块化的神经符号方法,将经过微调的语言模型与语言规则相结合。ELLEN 在使用以上词典中的最小监督时,在 CoNLL-2003 数据集上取得了非常强的性能。它在文献中通常使用的相同监督设置下,也优于大多数现有的(并且相对复杂得多)半监督 NER 方法。此外,我们在 WNUT-17 上以零样本场景评估了我们的 CoNLL-2003 模型,发现它的性能优于 GPT-3.5,并且实现了与 GPT-4 相当的性能。在零样本设置下,ELLEN 的性能也达到了基于金标数据训练的强有力、完全监督模型性能的 75% 以上。