部分注释数据的命名实体识别
研究了使用部分标记数据进行命名实体识别的问题,用迭代算法通过识别假负标签减小其权值,训练带有偏重的 NER 模型,取得 8 种语言的实验结果,并在孟加拉语 NER 语料库中比现有最优算法提高 5 个百分点的 F1 分数。
Sep, 2019
本文探讨了应用部分标注学习方法在缺失生物医学命名实体注释的场景中进行实体识别的有效性,并提出了一个新的 TS-PubMedBERT-Partial-CRF 模型来提高实体识别性能。实验结果表明,该模型在高缺失实体比例下的 F1-score 比使用全标注学习模型 PubMedBERT Tagger 高 38%,同时其实体识别的召回率也达到了与全标注学习数据集上的上界相竞争的水平。
May, 2023
命名实体识别(NER)旨在从文本中提取命名真实世界对象并确定它们的类型,本文首先概述了最近流行的方法,然后探讨了其他调查中较少涉及的基于图和变换器的方法,包括大型语言模型(LLMs)。其次,重点介绍了适用于稀缺注释数据集的方法。第三,我们评估了主要 NER 实现在不同类型的数据集上的性能,并对从未共同考虑过的算法进行了深入比较。我们的实验揭示了数据集特征如何影响我们比较的方法的行为。
Jan, 2024
通过对三个数据集进行分析,我们发现进行了细粒度微调的 spaCy-transformer 成为最佳模型,对于手动注释、增强注释和机器注释数据集,它的宏 F1 分数分别为 95.9%、96.04%和 95.71%。
Feb, 2024
本文提出一种基于 BERT 和自监督学习、标签预处理来优化部分标记数据集上的命名实体识别 (NER) 模型的方法。我们的方法在处理缺乏标记的数据集时显著优于基于 LSTM 的标签预处理基线,并证明在 CoNLL 2003 数据集上使用 RoBERTa 模型只标记 10%的实体即可达到与 50%实体标记的基线模型相同的性能。
Nov, 2022
我们提出了一种新的名词实体识别方法,称为基于示例的实体识别,在缺乏数据的情况下通过受到问答启发,使用少量支持示例来识别新领域中的实体范围,与当前最先进的方法相比,该方法表现出更好的性能,特别是在使用少量支持示例时。
Aug, 2020
通过大规模语言模型,命名实体识别可以达到更精细化的实体类型识别、零样本识别和语句检索等目标,但这些目标仍然需要进一步研究和探索。
Oct, 2023
本研究提出了一种称为 “部分标签模型(Partial Label Model)” 的新方法,该方法可以使用部分有标注的数据集来训练 NER 模型,以更节省成本地扩展分类法,实验表明,该方法在新分类法设置下的表现显著优于其他方法,并在额外实体类型数据有限的情况下表现出更加节省成本。
May, 2023
本文提出了一种有效地建立识别命名实体(NER)系统的方法,基于最近的基于转换器的自我监督预训练语言模型(PLMs),并探讨了三种正交的方案来改进针对少样例情况的模型泛化能力,通过大量实验结果表明,我们的方法在少数样例学习环境中显著改善或优于基于域标记微调的 PLM 线性分类器等基线方法,同时在无训练和少样例学习环境下建立了最新的业界记录。
Dec, 2020
本研究通过对三种语言的专家注释的命名实体数据集进行调查,展示了文本歧义和人工指南变更是高质量修订的差异性注释的主要因素,并对难以理解的实体的学生注释进行了调查,证明了从分布视角理解命名实体歧义的多向注释的可行性和必要性。
Feb, 2024