Aug, 2023

BIOptimus:使用课程学习预训练最佳生物医学语言模型于命名实体识别

TL;DR本研究通过比较不同的预训练方法,包括从头开始预训练生物医学语言模型和在连续环境中预训练模型,并利用 BERT 模型内上下文中的现有权重提炼初始化新标记的权重,加快预训练阶段并提高命名实体识别性能;此外,我们还比较了掩码率、损坏策略和掩码策略对生物医学语言模型性能的影响;最终,我们通过课程学习和上下文化权重提炼方法提出了一种新的生物医学语言模型 (BIOptimus),在多项生物医学命名实体识别任务中创造了新的技术水平