检测和匹配的生物医学实体识别
本研究提出了一个新的生物医学方法实体识别数据集,利用自动化的生物医学方法实体识别和信息检索系统来辅助人工注释。此外,我们全面探索了一系列传统和现代的面向开放领域的命名实体识别方法,包括针对我们数据集进行定制的最新大规模语言模型(LLMs)的使用。我们的实证研究发现,令人惊讶的是,语言模型的大参数数量阻碍了与生物医学方法相关的实体提取模式的有效吸收。显著地,结合条件随机场(CRF),利用体积适中的 ALBERT 模型(仅 11MB),取得了最先进的性能(SOTA)。
Jun, 2024
通过在 Apache Spark 之上重新实现 Bi-LSTM-CNN-Char 深度学习架构,我们提出了一个单可训练的命名实体识别(NER)模型,该模型在七个公共生物医学基准测试中获得了新的最优结果,而不使用像 BERT 这样的重型上下文嵌入。该模型在生产级别代码库中作为开源 Spark NLP 库的一部分免费提供,并且可以扩展以支持其他人类语言,而不需要更改代码。
Nov, 2020
本文提出了一种集成多种模型的混合方法,以解决生物医学实体识别中的局限性,并在 i2b2/2010 数据集上评估,得到了 90.11 的 F1 分数。
Dec, 2023
本文提出了一个多任务学习框架,可以用于对生物医学命名实体进行识别并提高性能。该模型在 15 个基准生物医学命名实体识别数据集上的实验表明,它比现有的命名实体识别系统和基线序列标注模型都要好,此外,性能提升大部分来源于在不同的标注数据之间共享生物医学实体相关的字符和单词级别的信息。
Jan, 2018
BERN2 是一种用于生物医学实体识别和归一化的工具,采用多任务命名实体识别模型和神经网络归一化模型,能更快、更准确地进行推理,帮助构建生物医学知识图谱。
Jan, 2022
本文系统地分析了生物识别模型的三种识别能力:记忆,同义词泛化和概念泛化,并发现现有模型在识别同义词和新的生物概念方面存在局限性,这表明他们的泛化能力被高估了。作者调查了模型的失败案例,并确定了识别未见过的生物词汇的几个困难。最后,作者采用基于统计的去偏置方法作为简单的补救方法,显示出对未见过的提及的泛化改进。希望本文的分析和发现能够促进对 NER 模型泛化能力的进一步研究。
Jan, 2021
本文探讨了应用部分标注学习方法在缺失生物医学命名实体注释的场景中进行实体识别的有效性,并提出了一个新的 TS-PubMedBERT-Partial-CRF 模型来提高实体识别性能。实验结果表明,该模型在高缺失实体比例下的 F1-score 比使用全标注学习模型 PubMedBERT Tagger 高 38%,同时其实体识别的召回率也达到了与全标注学习数据集上的上界相竞争的水平。
May, 2023
本研究介绍了一项新任务:Dynamic Named Entity Recognition(DNER),提供了一个框架,以更好地利用上下文来评估算法提取实体的能力。DNER 基于两个数据集,DNER-RotoWire 和 DNER-IMDb,我们评估了基线模型并提出了与此新任务相关的问题和研究方向的实验。
Feb, 2023
通过全面的实证评估,我们表明在生物医学文本中,受监督的微调方法仍然相关且比通用性的大型语言模型更有效,如 PubMedBERT 可以仅凭 5 个受监督示例就能在命名实体识别任务上超过 ChatGPT。
Apr, 2024
NanoNER 是基于本体知识和远程监督学习的专业领域命名实体识别模型,在 Nano 生物学领域检测先前已知实体的识别准确性为 0.98,并展示了发现新实体的能力(精确度为 0.77 至 0.81),该方法对外部资源的依赖性和 30% 的识别减弱引发的重新发现能力得到了验证。该研究为未来专业领域命名实体识别研究提供了有价值的方法和重要发现,并能推广到其他专业领域,并减少人力资源占用。
Jan, 2024