通过参考集增强的蒸馏自举方法实现生物医学命名实体识别(Biomedical Named Entity Recognition via Reference-Set Augmented Bootstrapping)
本文探讨了应用部分标注学习方法在缺失生物医学命名实体注释的场景中进行实体识别的有效性,并提出了一个新的 TS-PubMedBERT-Partial-CRF 模型来提高实体识别性能。实验结果表明,该模型在高缺失实体比例下的 F1-score 比使用全标注学习模型 PubMedBERT Tagger 高 38%,同时其实体识别的召回率也达到了与全标注学习数据集上的上界相竞争的水平。
May, 2023
本论文提出了一种基于 transformer 的方法来解决在生物医学领域中监督命名实体识别(NER)的挑战,包括零样本和少样本 NER。该方法基于将多类令牌分类的任务转化为二进制令牌分类,并在更多数据集和医学实体上预训练,从中可以学习给定实体和潜在类之间的语义关系。使用 PubMedBERT 调整模型进行的实验结果表明,该方法具有识别有限样本中的新实体的能力,对于零样本 NER 的平均 F1 得分达到 35.44%,对于 10 样本和 100 样本 NER 的平均 F1 得分分别为 69.94%和 79.51%。该方法可与目前的先进零样本和少样本 NER 方法相媲美甚至更好。
May, 2023
该研究探讨了在资源匮乏的语言中高效创建高质量实体识别器的最有效方法,通过运用跨语言转移、有针对性注释同属于两种策略的方法,实现在小数据集下快速精确识别实体的结果。
Aug, 2019
通过在 Apache Spark 之上重新实现 Bi-LSTM-CNN-Char 深度学习架构,我们提出了一个单可训练的命名实体识别(NER)模型,该模型在七个公共生物医学基准测试中获得了新的最优结果,而不使用像 BERT 这样的重型上下文嵌入。该模型在生产级别代码库中作为开源 Spark NLP 库的一部分免费提供,并且可以扩展以支持其他人类语言,而不需要更改代码。
Nov, 2020
NanoNER 是基于本体知识和远程监督学习的专业领域命名实体识别模型,在 Nano 生物学领域检测先前已知实体的识别准确性为 0.98,并展示了发现新实体的能力(精确度为 0.77 至 0.81),该方法对外部资源的依赖性和 30% 的识别减弱引发的重新发现能力得到了验证。该研究为未来专业领域命名实体识别研究提供了有价值的方法和重要发现,并能推广到其他专业领域,并减少人力资源占用。
Jan, 2024
提出使用具领域特色的语言特征的积极非标记学习算法来快速、有效扩展种子词典以帮助解决命名实体识别(NER)领域中的问题,该模型在产品描述数据集上的平均 F1 分数为 72.02%,比基线 BiLSTM 分类器提高 3.63%,尤其表现出更好的召回率(平均为 4.96%)。
May, 2020
研究了使用部分标记数据进行命名实体识别的问题,用迭代算法通过识别假负标签减小其权值,训练带有偏重的 NER 模型,取得 8 种语言的实验结果,并在孟加拉语 NER 语料库中比现有最优算法提高 5 个百分点的 F1 分数。
Sep, 2019
本文提出了一种集成多种模型的混合方法,以解决生物医学实体识别中的局限性,并在 i2b2/2010 数据集上评估,得到了 90.11 的 F1 分数。
Dec, 2023
本报告提出了一种基于条件随机场层和双向 LSTM 层的神经网络体系结构,其中嵌入向量(Glove,BERT)的融合输入被用来增强模型的泛化能力,还引入了一个分类模型来分离句子并对弱类和强类进行优化以提高 Named Entity Recognition 任务的性能。经实验证明,该方法显著提高了弱类的表现结果,并且只使用了非常少量的数据集。
Mar, 2020
本文提出了一种基于 BART 的数据增强框架 BioAug,通过选择性遮掩和知识增强,训练 BioAug 以解决一种新颖的文本重构任务,并在 5 个基准 BioNER 数据集上证明了 BioAug 的有效性和优越性,能够生成更加真实和多样化的数据。
May, 2023