BioFLAIR:用于生物医学序列标注任务的预训练聚合上下文化嵌入
本文提出了一种集成多种模型的混合方法,以解决生物医学实体识别中的局限性,并在 i2b2/2010 数据集上评估,得到了 90.11 的 F1 分数。
Dec, 2023
本文研究使用预训练的语言模型作为固定的特征提取器,并限制下游任务模型没有额外的序列建模层,探索在域内训练后的上下文词嵌入中携带的附加信息。结果发现,BioELMo 在编码实体类型和关系信息方面优于 BioBERT。
Apr, 2019
本文探讨了基于词汇的上下文嵌入模型在临床领域的应用,发现相对于通用语料库,专业领域语料库下的 BERT 模型在三个典型的临床自然语言处理任务上表现更加出色。
Apr, 2019
本研究旨在研究新的语言表示方法(如 ELMo,BERT)在医疗概念提取方面的应用,比较这些方法与传统词嵌入方法(word2vec,GloVe,fastText)的性能表现,并探讨将这些表示方法应用于医疗任务的可能性。研究结果表明,基于大型医学语料库的上下文嵌入方法表现出色,优于现有所有方法。此外,与传统词表示相比,上下文嵌入方法还包含有价值的语义信息。
Feb, 2019
Med-BERT 是一种基于 BERT 框架训练的语境嵌入模型,适用于在数据集较小的情况下预测疾病。通过电子病历研究心力衰竭和胰腺癌的预测,表明 Med-BERT 具有较高的准确性和泛化性能,可以大幅提升深度学习模型的性能和推广医疗人工智能的发展。
May, 2020
这篇论文介绍了利用自然语言处理和表示学习生成医学术语的嵌入,以更好的预测临床决策和患者轨迹,提出了一个新的医学术语表示模型 HiPrBERT,并使用层次结构数据来训练和提高嵌入效果。
Jul, 2023
通过在 Apache Spark 之上重新实现 Bi-LSTM-CNN-Char 深度学习架构,我们提出了一个单可训练的命名实体识别(NER)模型,该模型在七个公共生物医学基准测试中获得了新的最优结果,而不使用像 BERT 这样的重型上下文嵌入。该模型在生产级别代码库中作为开源 Spark NLP 库的一部分免费提供,并且可以扩展以支持其他人类语言,而不需要更改代码。
Nov, 2020
本文介绍了利用命名实体提取技术和双向 LSTM 模型结合 Flair 嵌入对印度法院文本进行标注的实验,并公开了 BIO 格式的数据集。
Jun, 2023
本研究中,我们提出了一种实体归一化架构,通过微调预训练的 BERT/BioBERT/ClinicalBERT 模型,并使用三种不同类型的数据集进行了广泛的实验,评估了预训练模型用于生物医学实体归一化的有效性。我们的实验结果表明,最佳微调模型始终优于以前的方法,并提高了生物医学实体规范化的最新水平,精确度提高了高达 1.17%。
Aug, 2019
提出了一种名为 HunFlair 的 NER 标记器,可覆盖多种实体类型,精度更高,并能处理文本体裁和风格的变化,HunFlair 在 Flair 框架中提供并兼容于各种操作系统中。
Aug, 2020