本文提出了一种在生物医学问答任务中应用预训练语言模型和迁移学习的方法,并通过实验证明优化迁移学习任务的顺序可以显著提高其性能。
Jul, 2020
本文介绍了如何将自然语言处理 (NLP) 中最新的预训练语言模型 BERT 应用于生物医学文献的文本挖掘,并提出了一种自然语言处理 (BioBERT) 模型用于生物医学文本挖掘,该模型在以前的生物医学文本挖掘任务中表现得比 BERT 好并且公开了该模型的预训练权重以及源代码。
Jan, 2019
本文通过编制全面的生物医学 NLP 基准测试集,证明了在丰富的未标记文本的领域中,从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型,能够显著提高生物医学 NLP 任务的效果,并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型,并创建了一个包含我们的 BLURB 基准测试的排行榜。
本文旨在研究和比较不同的预训练语言模型在回答问题的能力上的表现,通过使用 Bert-BiLSTM 结构模型的效果来检验双向流的加入是否能够提高模型性能,并发现 RoBERTa 和 BART 表现最佳。
Oct, 2021
本文探讨了如何通过在特定领域数据上进行连续预训练,来适应领域特定需求,以提高医学自然语言处理任务的性能。实验证明,通过在临床数据或翻译文本上进行预训练已被证明是在医学领域适应性优化的可靠方法。
Apr, 2024
本研究探讨了如何通过对特定语料库的过采样和使用更大的语料库进行预训练,在医学和其他领域中建立高性能的 BERT 模型以提高自然语言处理中信息提取的性能。
May, 2020
使用预训练模型 BERT 进行微调以提高答案选择任务的性能并在五个数据集上获得 STOA 结果
May, 2019
本研究提出了一种结合上下文嵌入方法、开放领域 QA 模型以及生物医学领域预训练模型 BioBERT 的生物医学问答方法,并采用无监督预训练和受监督微调的方式进行训练。实验结果表明,该方法在公共数据集 Biomrc 上相较于现有最先进系统有着显著的性能优势。
Jun, 2022
提出一种在大规模生物医学语料库上训练的具有生物医学上下文依赖命名实体识别能力的领域特定语言模型 —— 生物医学 ALBERT,并在 8 个不同的医学 NER 基准数据集上展现出极高的性能表现,该模型可供未来研究使用。
Sep, 2020
本研究介绍了一种 BioBART 生成语言模型,适应于生物医学领域,用于对话、摘要、实体链接和命名实体识别等各种自然语言生成任务,预先培训在 PubMed 摘要上的 BioBART 比 BART 性能更出色,并在几个任务上设定了强基线。预处理任务的消融研究表明,句子置换对下游任务有负面影响。
Apr, 2022