为生物医学自然语言处理调整大型神经语言模型
本文通过编制全面的生物医学 NLP 基准测试集,证明了在丰富的未标记文本的领域中,从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型,能够显著提高生物医学 NLP 任务的效果,并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型,并创建了一个包含我们的 BLURB 基准测试的排行榜。
Jul, 2020
利用指令调整(instruction tuning)技术,对两个规模庞大的通用语言模型进行研究,以期在生物医学自然语言处理任务上取得类似于 BioBERT 和 BioClinicalBERT 等特定编码器模型的结果,并提供了相应的代码、模型和基于指令的数据集。
Dec, 2023
本研究探讨了如何通过对特定语料库的过采样和使用更大的语料库进行预训练,在医学和其他领域中建立高性能的 BERT 模型以提高自然语言处理中信息提取的性能。
May, 2020
本研究通过比较不同的预训练方法,包括从头开始预训练生物医学语言模型和在连续环境中预训练模型,并利用 BERT 模型内上下文中的现有权重提炼初始化新标记的权重,加快预训练阶段并提高命名实体识别性能;此外,我们还比较了掩码率、损坏策略和掩码策略对生物医学语言模型性能的影响;最终,我们通过课程学习和上下文化权重提炼方法提出了一种新的生物医学语言模型 (BIOptimus),在多项生物医学命名实体识别任务中创造了新的技术水平
Aug, 2023
本文探讨了如何通过在特定领域数据上进行连续预训练,来适应领域特定需求,以提高医学自然语言处理任务的性能。实验证明,通过在临床数据或翻译文本上进行预训练已被证明是在医学领域适应性优化的可靠方法。
Apr, 2024
本文探讨了在数据点少于 1,000 的低资源环境下利用基于预训练 Transformer 的语言模型的微调方法,通过利用基于池的主动学习加速训练同时保持标记新数据的成本不变。实验结果表明,通过最大化从未标记数据池中查询的模型的近似知识收益,可提高模型性能。最后,我们演示并分析了语言模型冻结层的好处,以减少可训练参数的数量,使其更适用于低资源环境。
Dec, 2020
通过使用关键词训练一个深度学习架构,我们提出了一个不需要预训练与微调,可以直接应用于特定环境进行多标签分类的方法,该方法在文本分类中显著提高了性能,是一种有潜力的替代传统方法的有效选择,并在各种医学领域具有潜在应用。
Dec, 2023
本文旨在探究两种途径从英语语料库中翻译生成的语言格式数据和本地化的语料库数据来建立生物医学语言模型,以应用在医疗领域中以提高患者护理和管理(本研究以意大利为例)。通过实验发现,在相对较小的语料库情况下,高质量数据的合并可以提高模型性能,但数据量的限制更为严格;本文的研究成果有望为意大利医院和学术界提供发展机遇,并为如何构建通用于其他不太具备资源的语言和不同领域设置的生物医学语言模型提供有价值的见解。
Dec, 2022
本文介绍了使用预训练和微调、提示或文本生成方法解决 NLP 任务的大型预训练基于 transformer 的语言模型,以及使用预训练语言模型生成数据进行训练或其他目的的方法,并讨论未来研究的限制和建议方向。
Nov, 2021
LLMs 在自然语言处理任务中取得了巨大成功,但在生物医学领域的指令却只有少数发布。为了解决这个问题,我们介绍了 BioInstruct,一个包含超过 25000 个示例的定制任务特定指令数据集。通过使用 BioInstruct 数据集对 LLMs 进行微调,我们旨在优化 LLM 在生物医学自然语言处理(BioNLP)领域的性能。我们在 BioNLP 应用中对 LLaMA LLMs(1&2,7B&13B)进行了指令调优,并评估了它们的信息提取、问答和文本生成能力。我们还使用多任务学习原则评估了指令对模型性能的贡献。
Oct, 2023