Oct, 2013

跨语言伪投影期望正则化用于弱监督学习

TL;DR本文提出了基于 bitext 资源将多语种低监督学习领域的已标注语料库知识转移的一种新方法,该方法使用推断的模型期望而不是标签来指导学习。在标注数据不足的情况下,评估结果表明,在标准的中英和德英 NER 数据集上,我们的方法表现出 64%和 60%的 F1 得分。与监督 CRFs 相比,实现相同准确性需要 12k 和 1.5k 标记句子。此外,当与标记示例结合使用时,我们的方法在中文 OntoNotes 和德语 CoNLL-03 数据集上获得了迄今为止报告的最佳结果。