小规模强标注数据和大规模弱标注数据的命名实体识别
本文提出两种弱监督的跨语言实体标识方法,分别基于注释投影和词嵌入,无需使用目标语言的人工注释数据。同时,我们设计了两种协同解码方案,将两个基于投影的方法的输出相结合,评估表明这种组合性的方法优于其他三种弱监督方法。
Jul, 2017
研究了使用部分标记数据进行命名实体识别的问题,用迭代算法通过识别假负标签减小其权值,训练带有偏重的 NER 模型,取得 8 种语言的实验结果,并在孟加拉语 NER 语料库中比现有最优算法提高 5 个百分点的 F1 分数。
Sep, 2019
文章提出了一种简单但有效的方法,通过弱监督机制在没有标注数据的情况下学习 NER 模型,该方法使用广泛的标注功能对目标域中的文本进行自动注释,然后通过隐马尔可夫模型将这些注释合并在一起,从而最终基于这个统一的注释训练一个序列标注模型。通过在两个英文数据集上的评估(CoNLL 2003 和来自路透社和彭博社的新闻文章),相比于域外神经 NER 模型,在实体级别的 F1 得分上取得了约 7 个百分点的提升。
Apr, 2020
本文研究如何通过使用自动化匹配原始文本中实体提及与知识库中实体类型来获得的远距离标注数据来训练命名实体识别(NER)模型,提出了一种噪声鲁棒的学习方案和自训练方法,通过预训练语言模型创建的上下文增量来改善 NER 模型的泛化能力,在三个基准数据集上,我们的方法均获得了优越的性能,显著优于现有的远程监督 NER 模型。
Sep, 2021
本报告提出了一种基于条件随机场层和双向 LSTM 层的神经网络体系结构,其中嵌入向量(Glove,BERT)的融合输入被用来增强模型的泛化能力,还引入了一个分类模型来分离句子并对弱类和强类进行优化以提高 Named Entity Recognition 任务的性能。经实验证明,该方法显著提高了弱类的表现结果,并且只使用了非常少量的数据集。
Mar, 2020
本文提出了一种有效地建立识别命名实体(NER)系统的方法,基于最近的基于转换器的自我监督预训练语言模型(PLMs),并探讨了三种正交的方案来改进针对少样例情况的模型泛化能力,通过大量实验结果表明,我们的方法在少数样例学习环境中显著改善或优于基于域标记微调的 PLM 线性分类器等基线方法,同时在无训练和少样例学习环境下建立了最新的业界记录。
Dec, 2020
本研究提出了一种半监督框架,利用 GPT-2 模型自动构建了大规模数据,并根据估计的标签质量调整模型参数更新,实现 NLG 和 NLU 模型的联合训练,证明在数据稀缺场景下,该弱监督培训范式是一种有效的方法,在 E2E 和天气基准测试上优于基准系统。
Feb, 2021
该研究提出了一种基于弱标注数据的名字标注神经模型,通过使用 Partial-CRFs 等技术,有效地解决了低资源语言或领域中不足的培训数据问题,并在五种低资源语言和细粒度的食品领域上表现出显著的性能和效率改善。
Aug, 2019
本文描述了微软在交叉语种命名实体识别中的新实践方法,使用源语种的标注数据和目标语种的无标注数据,采用半监督学习和强化学习的方法来提取弱监督信号并实现了新的最先进性能优于现有的模型。
Jun, 2021
我们研究了在极弱监督条件下的命名实体识别(NER)问题,提出了一种名为 X-NER 的新方法,可以胜过现有的一次性 NER 方法,具有跨语言能力。
Nov, 2023