从语言模型中探测生物医学嵌入
本研究旨在研究新的语言表示方法(如 ELMo,BERT)在医疗概念提取方面的应用,比较这些方法与传统词嵌入方法(word2vec,GloVe,fastText)的性能表现,并探讨将这些表示方法应用于医疗任务的可能性。研究结果表明,基于大型医学语料库的上下文嵌入方法表现出色,优于现有所有方法。此外,与传统词表示相比,上下文嵌入方法还包含有价值的语义信息。
Feb, 2019
本文探讨了基于词汇的上下文嵌入模型在临床领域的应用,发现相对于通用语料库,专业领域语料库下的 BERT 模型在三个典型的临床自然语言处理任务上表现更加出色。
Apr, 2019
本研究通过比较不同的预训练方法,包括从头开始预训练生物医学语言模型和在连续环境中预训练模型,并利用 BERT 模型内上下文中的现有权重提炼初始化新标记的权重,加快预训练阶段并提高命名实体识别性能;此外,我们还比较了掩码率、损坏策略和掩码策略对生物医学语言模型性能的影响;最终,我们通过课程学习和上下文化权重提炼方法提出了一种新的生物医学语言模型 (BIOptimus),在多项生物医学命名实体识别任务中创造了新的技术水平
Aug, 2023
本文介绍了 Biomedical Language Understanding Evaluation (BLUE) benchmark,该基准旨在促进预训练语言表示在生物医学领域的发展研究。我们评估了多个基于 BERT 和 ELMo 的基线,并发现在 PubMed 文摘和 MIMIC-III 临床笔记上预训练的 BERT 模型取得了最佳结果。
Jun, 2019
UmlsBERT is a contextual embedding model for biomedical natural language processing that integrates domain knowledge during pre-training via a novel knowledge augmentation strategy, outperforming existing models on named-entity recognition and clinical natural language inference tasks.
Oct, 2020
提出 KeBioLM 这一生物医学语言 pretrained language model,该模型明确利用了来自 UMLS UMLS knowledge bases 知识库的知识,取得了名词实体识别和关系提取的不错效果。
Apr, 2021
本研究中,我们提出了一种实体归一化架构,通过微调预训练的 BERT/BioBERT/ClinicalBERT 模型,并使用三种不同类型的数据集进行了广泛的实验,评估了预训练模型用于生物医学实体归一化的有效性。我们的实验结果表明,最佳微调模型始终优于以前的方法,并提高了生物医学实体规范化的最新水平,精确度提高了高达 1.17%。
Aug, 2019
本文通过编制全面的生物医学 NLP 基准测试集,证明了在丰富的未标记文本的领域中,从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型,能够显著提高生物医学 NLP 任务的效果,并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型,并创建了一个包含我们的 BLURB 基准测试的排行榜。
Jul, 2020
本研究提出了一种结合上下文嵌入方法、开放领域 QA 模型以及生物医学领域预训练模型 BioBERT 的生物医学问答方法,并采用无监督预训练和受监督微调的方式进行训练。实验结果表明,该方法在公共数据集 Biomrc 上相较于现有最先进系统有着显著的性能优势。
Jun, 2022