Apr, 2015

最小监督下的命名实体识别字典学习

TL;DR本文介绍了使用大量的未标记数据和几个种子示例,通过自动构建的方法从而实现命名实体识别的字典。通过使用规范相关分析法获取候选短语的低维嵌入,然后分类这些短语使用少量的带标签的实例。本文的方法在疾病和病毒 NER 方面实现了 16.5%和 11.3%的 F-1 得分改善。我们还展示了将候选短语嵌入添加为序列标记器中的特征与使用单词嵌入相比,可以获得更好的性能。