Existing models for cross-domain named entity recognition (NER) rely on
numerous unlabeled corpus or labeled NER training data in target domains.
However, collecting data for low-resource target domains is not only expensive
but also time-consuming. Hence, we propose a cross-domain NER
为了解决交叉域命名实体识别 (NER) 任务中样本少的问题,作者提出了一个跨领域 NER 数据集 CrossNER, 进行了一系列实验来探索利用不同级别的领域语料库和预训练策略进行域自适应预训练的有效性,研究表明利用包含领域特定实体的分数语料库并采用更具挑战性的预训练策略对于 NER 的域自适应有益,提出的方法在跨领域 NER 基线上效果更好。
提出了一种基于 Mixture of Experts (MoE) 的强大的命名实体识别(NER)模型 BOND-MoE,通过使用多个模型在 EM 框架下进行集成,可以显著减轻噪声监督带来的问题,并引入公平分配模块来平衡文档 - 模型分配过程,实验证明该方法在真实数据集上取得了与其他远程监督 NER 方法相比的最先进性能。
文章提出了一种简单但有效的方法,通过弱监督机制在没有标注数据的情况下学习 NER 模型,该方法使用广泛的标注功能对目标域中的文本进行自动注释,然后通过隐马尔可夫模型将这些注释合并在一起,从而最终基于这个统一的注释训练一个序列标注模型。通过在两个英文数据集上的评估(CoNLL 2003 和来自路透社和彭博社的新闻文章),相比于域外神经 NER 模型,在实体级别的 F1 得分上取得了约 7 个百分点的提升。