通过检索非结构化知识进行自适应命名实体识别
本文描述了微软在交叉语种命名实体识别中的新实践方法,使用源语种的标注数据和目标语种的无标注数据,采用半监督学习和强化学习的方法来提取弱监督信号并实现了新的最先进性能优于现有的模型。
Jun, 2021
本文介绍了一种新的命名实体识别级联方法,它由三个步骤组成:首先在输入句子中识别候选实体,然后将每个候选实体链接到现有的知识库中,最后预测每个实体候选的细粒度类别。实验证明,外部知识库在准确分类细粒度和新兴实体方面具有重要意义,并且我们的系统在 MultiCoNER2 共享任务中表现出强大的性能,即使在使用高资源语言的知识库情况下,也能在低资源语言环境中获得良好的表现。
Apr, 2023
通过大规模语言模型,命名实体识别可以达到更精细化的实体类型识别、零样本识别和语句检索等目标,但这些目标仍然需要进一步研究和探索。
Oct, 2023
我们提出了一种新的名词实体识别方法,称为基于示例的实体识别,在缺乏数据的情况下通过受到问答启发,使用少量支持示例来识别新领域中的实体范围,与当前最先进的方法相比,该方法表现出更好的性能,特别是在使用少量支持示例时。
Aug, 2020
本研究介绍了一项新任务:Dynamic Named Entity Recognition(DNER),提供了一个框架,以更好地利用上下文来评估算法提取实体的能力。DNER 基于两个数据集,DNER-RotoWire 和 DNER-IMDb,我们评估了基线模型并提出了与此新任务相关的问题和研究方向的实验。
Feb, 2023
论文提出了一个基于最近邻学习和结构化推理的简单的少样本命名实体识别系统,使用一个有监督的 NER 模型在源领域上进行训练,作为特征提取器,提出了一种捕获实体标签之间标签依赖性的廉价但有效的方法,并将结构化解码与最近邻学习相结合,达到了先进的表现。该方法使得 F1 分数相对于以前基于元学习的系统提高了 6%至 16%的绝对值。
Oct, 2020
本文提出了一种有效地建立识别命名实体(NER)系统的方法,基于最近的基于转换器的自我监督预训练语言模型(PLMs),并探讨了三种正交的方案来改进针对少样例情况的模型泛化能力,通过大量实验结果表明,我们的方法在少数样例学习环境中显著改善或优于基于域标记微调的 PLM 线性分类器等基线方法,同时在无训练和少样例学习环境下建立了最新的业界记录。
Dec, 2020
本研究利用短语嵌入搜索构建高覆盖率的实体词典,并利用其生成具有高覆盖率的命名实体识别(NER)数据集。通过利用字典中候选短语与目标实体类型之间的嵌入距离来减少噪声,实现了弱监督 NER 模型的改进。在 6 个 NER 基准测试中,与当前弱监督 NER 模型相比,HighGEN 表现出更为优异的性能。
Oct, 2022