DrBERT:一种健壮的法语医学临床领域预训练模型
首次公开提供的法语生物医学语言理解基准 DrBenchmark,评估 8 种最新的预训练掩码语言模型 (MLMs) 的通用和生物医学特定数据上的性能,以及英语特定的 MLMs 来评估它们的跨语言能力。
Feb, 2024
本文探讨了如何通过在特定领域数据上进行连续预训练,来适应领域特定需求,以提高医学自然语言处理任务的性能。实验证明,通过在临床数据或翻译文本上进行预训练已被证明是在医学领域适应性优化的可靠方法。
Apr, 2024
本文通过编制全面的生物医学 NLP 基准测试集,证明了在丰富的未标记文本的领域中,从头开始针对特定领域的预训练语言模型相对于持续预训练通用领域语言模型,能够显著提高生物医学 NLP 任务的效果,并发现一些常用做法不必要。我们为社区发布了我们的最新预训练和任务特定模型,并创建了一个包含我们的 BLURB 基准测试的排行榜。
Jul, 2020
本篇论文综述了近期预训练语言模型在生物医学领域的研究进展及其在生物医学下游任务中的应用,提出了现有生物医学 PLMs 的分类及其在下游任务中的应用,讨论了其限制与未来发展趋势。
Oct, 2021
比较了三种适用于长序列模型的适应策略,研究结果表明,用法文生物医学文本进一步预训练英文临床模型,优于将法文生物医学 BERT 转换为 Longformer 架构或从头预训练法文生物医学 Longformer,而对于命名实体识别任务,BERT 模型仍然是最高效的。
Feb, 2024
通过对一部分医学文献的预处理和机器学习,研究团队提出了一种针对法语生物医学领域的语言模型 CamemBERT-Bio,并且该模型在实体识别任务上的 f1 分数相较之前有了 2.54 的提升。
Jun, 2023
这篇论文是关于对医学法语遮蔽语言模型在临床命名实体识别任务上的评估研究,发现 CamemBERT-bio 在性能上表现优于 DrBERT,而 FlauBERT 则具有竞争力,FrALBERT 的碳排放量最低。这是首个基准评估了法语医学遮蔽语言模型在临床实体识别方面的性能,并比较了其在嵌套实体识别上的性能和环境影响。
Mar, 2024
本文通过使用历史数据比较了预处理训练的生物医学领域模型(PLMs)和使用 Transformer 和 CRFs 模型的模型(TransformerCRF),并发现在临床文本挖掘任务中它们的性能表现最差。
Oct, 2022
本文介绍了针对西班牙语的生物医学和临床语言模型,通过实验不同的预训练选择和测试领域数据,生成可用于实际临床数据的模型,并通过对比 NER 任务,证实了进行特定领域的预训练对提高下游任务性能非常重要。
Sep, 2021
通过研究多语言神经网络模型,使用深度学习,如基于 Transformer 的结构,我们在临床文本机器翻译方面进行了调查。此外,为了解决语言资源不平衡问题,我们还使用基于大规模多语言预训练语言模型(MMPLMs)的迁移学习方法进行了实验。在临床案例(CC)、临床术语(CT)和本体概念(OC)等三个子任务上的实验结果表明,我们的模型在 ClinSpEn-2022 共享任务中的英语 - 西班牙语临床领域数据中表现出了最佳水平。此外,基于专家评估的人工评估结果显示,小型预训练语言模型(PLM)在临床领域微调中以大幅度优于其他两个超大型语言模型,这是该领域前所未有的发现。最后,迁移学习方法在我们的实验设置中运行良好,使用 WMT21fb 模型适应了预训练阶段在 WMT21fb 中未见的西班牙语语言空间,这值得进一步探索临床知识转化方面,例如研究更多语言。这些研究结果可以为特定领域的机器翻译开发提供一些启示,尤其是在临床和医疗领域。在我们的工作基础上可以开展进一步的研究项目,以改进医疗文本分析和知识转化。
Dec, 2023