Oct, 2022

查询短语表示来自动创建命名实体识别数据集

TL;DR本研究利用短语嵌入搜索构建高覆盖率的实体词典,并利用其生成具有高覆盖率的命名实体识别(NER)数据集。通过利用字典中候选短语与目标实体类型之间的嵌入距离来减少噪声,实现了弱监督 NER 模型的改进。在 6 个 NER 基准测试中,与当前弱监督 NER 模型相比,HighGEN 表现出更为优异的性能。