EMNLPOct, 2019

基于特征的混淆矩阵用于低资源 NER 标记和噪声标记

TL;DR在资源匮乏的情况下,使用自动注释或远程监督数据可以改善监督标注模型的性能,但这些数据往往信息有噪声,并且噪声估计需要考虑输入特征和预初始化的混淆矩阵。我们提出将训练数据使用输入特征进行聚类,为每个簇计算不同的混淆矩阵,并在多种语言的命名实体识别场景中进行评估,显示我们的方法比其他混淆矩阵方法提高了高达 9% 的性能。