生物医学自然语言处理中的迁移学习:对于十个基准数据集上 BERT 和 ELMo 的评估
本文研究使用预训练的语言模型作为固定的特征提取器,并限制下游任务模型没有额外的序列建模层,探索在域内训练后的上下文词嵌入中携带的附加信息。结果发现,BioELMo 在编码实体类型和关系信息方面优于 BioBERT。
Apr, 2019
通过适应生物医学领域 (PubMed、PubMed Central 和 MIMIC-III 数据集) 并微调了 20 个基准数据集上的 6 个任务,我们提出了 BioALBERT,并展示了它在大部分任务中优于现有技术。
Jul, 2021
本文通过编制全面的生物医学 NLP 基准测试集,证明了在丰富的未标记文本的领域中,从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型,能够显著提高生物医学 NLP 任务的效果,并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型,并创建了一个包含我们的 BLURB 基准测试的排行榜。
Jul, 2020
首次公开提供的法语生物医学语言理解基准 DrBenchmark,评估 8 种最新的预训练掩码语言模型 (MLMs) 的通用和生物医学特定数据上的性能,以及英语特定的 MLMs 来评估它们的跨语言能力。
Feb, 2024
最近,大型语言模型 (LLM) 在解决各种任务方面展现了令人印象深刻的能力。然而,尽管在各种任务中取得了成功,但以前的研究尚未调查它们在生物医学领域的能力。为此,本文旨在评估 LLMs 在基准生物医学任务中的性能。为此,我们对 26 个数据集中 6 个不同生物医学任务的 4 种流行 LLMs 进行了全面评估。据我们所知,这是第一次在生物医学领域对各种 LLMs 进行广泛评估和比较。有趣的是,基于我们的评估结果我们发现,在具有较小训练集的生物医学数据集中,零次矫正的 LLMs 甚至在效果上超过了当前最先进的生物医学模型。这表明,在大型文本语料库上进行预训练使 LLMs 在生物医学领域具有了相当专业的能力。我们还发现,在所有任务中没有单个 LLM 能够胜过其他 LLMs,不同 LLMs 的性能可能会因任务而异。尽管与在大型训练集上进行精细调整的生物医学模型相比,它们的性能仍然相当差,但我们的研究结果表明,LLMs 在缺乏大规模注释数据的各种生物医学任务中具有潜在的价值工具。
Oct, 2023
研究了一种多任务学习模型,应用于生物医学和临床自然语言处理任务中,结果表明该模型相比于目前的 transformer 模型,在生物医学和临床领域的表现分别提高了 2.0% 和 1.3%,并进一步展示了任务间的相互关系。
May, 2020
本文研究如何将预训练语言模型 BERT 改进适用于中文生物医学文本,并提出了一种新的概念化表示学习方法。我们还发布了一个新的中文生物医学语言理解评估基准( extbf {ChineseBLUE}),实验结果表明我们的方法可以获得显著的收益。
Aug, 2020
本研究探讨了如何通过对特定语料库的过采样和使用更大的语料库进行预训练,在医学和其他领域中建立高性能的 BERT 模型以提高自然语言处理中信息提取的性能。
May, 2020
本研究通过比较不同的预训练方法,包括从头开始预训练生物医学语言模型和在连续环境中预训练模型,并利用 BERT 模型内上下文中的现有权重提炼初始化新标记的权重,加快预训练阶段并提高命名实体识别性能;此外,我们还比较了掩码率、损坏策略和掩码策略对生物医学语言模型性能的影响;最终,我们通过课程学习和上下文化权重提炼方法提出了一种新的生物医学语言模型 (BIOptimus),在多项生物医学命名实体识别任务中创造了新的技术水平
Aug, 2023
为了促进医学大语言模型的研究,我们将中文生物医学语言理解评估 (CBLUE) 基准重新构建为一个大规模的提示调整基准,PromptCBLUE,用于评估中文大语言模型在广泛的生物医学任务上的多任务能力,包括医学实体识别、医学文本分类、医学自然语言推理、医学对话理解和医学内容 / 对话生成。在这些任务上,我们已经进行了实验并报告了目前使用不同微调技术微调的 9 个中文大语言模型的结果。
Oct, 2023