从生物医学文献中进行意图识别和实体提取
通过将大型语言模型(LLMs)应用于生物医学命名实体识别(NER)任务,将 NER 任务分解为实体跨度提取和实体类型确定两个步骤,同时注入实体知识以解决 LLM 在预测实体类别时缺乏领域知识的问题,实验证明了我们的两步 BioNER 方法相对于之前的少样本 LLM 基线在性能上有显著提高,而引入外部知识则显著增强了实体类别确定性能。
Sep, 2023
本文提出了一种集成多种模型的混合方法,以解决生物医学实体识别中的局限性,并在 i2b2/2010 数据集上评估,得到了 90.11 的 F1 分数。
Dec, 2023
通过从 UMLS 中提取文本序列,该工作为丰富生物医学变压器编码器的语言表示做出了数据为中心的范例贡献,从而将基于图的学习目标与掩码语言预训练相结合,初步实验结果表明该框架提高了多个生物医学和临床命名实体识别任务的下游性能。
Jul, 2023
该研究探讨了大型语言模型在医学领域中的应用,通过策略性地选择和设计提示语,增强模型在命名实体识别任务中的性能,并结合外部资源通过提示策略填补医学命名实体识别领域中的专业需求与通用语言模型之间的差距,最终提出的方法能够提高大型语言模型在医学命名实体识别任务中的 F1 分数。
Apr, 2024
通过在 Apache Spark 之上重新实现 Bi-LSTM-CNN-Char 深度学习架构,我们提出了一个单可训练的命名实体识别(NER)模型,该模型在七个公共生物医学基准测试中获得了新的最优结果,而不使用像 BERT 这样的重型上下文嵌入。该模型在生产级别代码库中作为开源 Spark NLP 库的一部分免费提供,并且可以扩展以支持其他人类语言,而不需要更改代码。
Nov, 2020
本论文提出了一种基于 transformer 的方法来解决在生物医学领域中监督命名实体识别(NER)的挑战,包括零样本和少样本 NER。该方法基于将多类令牌分类的任务转化为二进制令牌分类,并在更多数据集和医学实体上预训练,从中可以学习给定实体和潜在类之间的语义关系。使用 PubMedBERT 调整模型进行的实验结果表明,该方法具有识别有限样本中的新实体的能力,对于零样本 NER 的平均 F1 得分达到 35.44%,对于 10 样本和 100 样本 NER 的平均 F1 得分分别为 69.94%和 79.51%。该方法可与目前的先进零样本和少样本 NER 方法相媲美甚至更好。
May, 2023
提出一种在大规模生物医学语料库上训练的具有生物医学上下文依赖命名实体识别能力的领域特定语言模型 —— 生物医学 ALBERT,并在 8 个不同的医学 NER 基准数据集上展现出极高的性能表现,该模型可供未来研究使用。
Sep, 2020
本文提出了一个多任务学习框架,可以用于对生物医学命名实体进行识别并提高性能。该模型在 15 个基准生物医学命名实体识别数据集上的实验表明,它比现有的命名实体识别系统和基线序列标注模型都要好,此外,性能提升大部分来源于在不同的标注数据之间共享生物医学实体相关的字符和单词级别的信息。
Jan, 2018
通过适应生物医学领域 (PubMed、PubMed Central 和 MIMIC-III 数据集) 并微调了 20 个基准数据集上的 6 个任务,我们提出了 BioALBERT,并展示了它在大部分任务中优于现有技术。
Jul, 2021
本文研究了如何利用无标注文本数据来改善生物医学 NER 模型的性能,通过训练一个双向语言模型(BiLM)以预训练一个与 BiLM 相同结构的 NER 模型,结果表明这种方法能够显著提高模型性能,并且能够加快模型训练速度,减少训练样本数量。
Nov, 2017