GERNERMED++:德语医学 NLP 中的迁移学习
本研究 fine-tune 了一个受欢迎的德语 BERT 语言模型,用于 Legal Entity Recognition(LER)数据集,结果表明我们的模型在 LER 任务上表现比 BiLSTM-CRF+ 模型更优,并通过 HuggingFace 对外公开。
Mar, 2023
本文探讨了如何通过在特定领域数据上进行连续预训练,来适应领域特定需求,以提高医学自然语言处理任务的性能。实验证明,通过在临床数据或翻译文本上进行预训练已被证明是在医学领域适应性优化的可靠方法。
Apr, 2024
本文研究了如何利用无标注文本数据来改善生物医学 NER 模型的性能,通过训练一个双向语言模型(BiLM)以预训练一个与 BiLM 相同结构的 NER 模型,结果表明这种方法能够显著提高模型性能,并且能够加快模型训练速度,减少训练样本数量。
Nov, 2017
应用预训练的基于字符的语言模型,成功提升了历史德语低资源命名实体识别准确性,并相较于经典 CRF-based 方法和 Bi-LSTMs,提高了高达 6% 的 F1 得分表现。
Jun, 2019
通过利用通用领域的命名实体识别数据集进行迁移学习,本研究提出了一个简单而有效的方法 GERBERA,用于训练预训练的生物医学语言模型,该模型能在少量生物医学资源的情况下,对多个生物医学数据集进行命名实体识别,其表现优于使用多个附加生物医学数据集训练的基准模型。
Jun, 2024
本文介绍了一种从非结构化电子医疗记录中提取结构化信息的方法,该方法通过自然语言处理技术和网络注释工具的组合应用,优化了使用少量训练数据训练的定制命名实体识别模型的性能,并展示了该技术与现有方法相比的优势。研究结果表明,在仅使用 50% 的训练数据的情况下,我们的方法训练的模型的 F1 得分可达到 0.734,而当前流行的方法训练的不带语言模型组件的 spaCy 模型的 F1 得分为 0.704。
Oct, 2019
使用 BERT 和 transformer 层的简单和有效的 Named Entity Recognition 方法在计算机科学和生物医学领域的三个基准数据集上优于当前最先进技术,无需外部资源或特定数据增强。
Mar, 2022
通过在 Apache Spark 之上重新实现 Bi-LSTM-CNN-Char 深度学习架构,我们提出了一个单可训练的命名实体识别(NER)模型,该模型在七个公共生物医学基准测试中获得了新的最优结果,而不使用像 BERT 这样的重型上下文嵌入。该模型在生产级别代码库中作为开源 Spark NLP 库的一部分免费提供,并且可以扩展以支持其他人类语言,而不需要更改代码。
Nov, 2020
本文研究了从电子医疗记录中识别命名实体的问题,提出了一种基于标签感知的双重迁移学习框架 (La-DTL), 具有很强的跨科医疗命名实体识别的能力,实验证明该方法相比于强基线模型的表现有明显的提高,同时也展示了不局限于医学领域的命名实体识别应用前景。
Apr, 2018
使用预训练多语言模型 XLM-R,在医学领域的首个口头命名实体识别(Spoken Named Entity Recognition)数据集 VietMed-NER 上取得了最佳表现。
Jun, 2024