医疗文本数据去识别化的 Transformer 模型比较评估
本文描述了一系列旨在从已训练的 BERT 模型中恢复个人健康信息 (PHI) 的方法,同时提供了实验设置和基准探测模型,以促进类似研究。结果显示简单的探测方法无法有效地从 MIMIC-III EHR 训练的 BERT 中提取敏感信息,但更复杂的 “攻击” 可能会成功。因此,释放训练过的类似 EHR 的 BERT 模型是否存在数据隐私问题,需要更加深入的研究。
Apr, 2021
本研究旨在探究采用基于深度学习的命名实体识别 (NER) 方法在坚持保留医疗数据隐私的前提下,如何更好地去识别和去除医疗记录中的敏感信息,进而使得医疗数据可以用于科学研究。其中,BiLSTM-CRF 被发现是最佳的编码 / 解码器组合方式之一;字符嵌入和 CRF 的使用倾向于在精度和召回率之间做出权衡;而单独使用 Transformer 作为上下文编码器的效果相对较差。未来的研究可以尝试结构化医疗文本以获得更好的语义和句法信息,以进一步提高 EHR 去识别效果。
Mar, 2021
通过知识蒸馏和不断学习等技术,本研究着眼于发展处理临床文本的高效轻量级语言模型,与生物医学文本数据训练的大型模型相比,这些模型效果相当甚至更好,并超越了任何其他训练过的小型模型在自然语言推理、关系提取、命名实体识别和序列分类等临床文本挖掘任务上的表现。
Feb, 2023
构建一个自动化系统以去识别超过十亿条临床笔记,通过使用混合的基于上下文的模型体系结构,在可靠且链接的匿名文档方面提供实用的解决方案。
Dec, 2023
研究比较了 BERT、RoBERTa 和 XLNet 三种 transformer 模型在临床关系抽取方面的性能,发现 RoBERTa-clinical 以 0.8958 的 F1-score 在 2018 MADE1.0 数据集上表现最好,XLNet-clinical 以 0.9610 的 F1-score 在 2018 n2c2 数据集上表现最好。在生物医学领域中,研究者们可以使用我们开发的开源工具包进行进一步的相关 NLP 任务分析。
Jul, 2021
本研究通过乳腺癌表型提取任务,评估了基于 BERT 的临床自然语言处理模型在不同临床设置下的普适性。结果表明,CancerBERT 模型具有最佳的学习能力和普适性,并且模型的普适性与样本之间的相似度有关。
Mar, 2023
通过基于 Transformer 结构的大型语言模型(LLMs),我们可以自动检测临床表型术语,包括未记录在 HPO 中的术语。在本研究中,我们开发了两种模型:PhenoBCBERT,一种基于 BERT 的模型,利用 Bio+Clinical BERT 作为其预训练模型,和 PhenoGPT,一种基于 GPT 的模型,可以从各种 GPT 模型(包括开源版本和专有版本)初始化。我们发现我们的方法可以提取更多的表型概念,包括 HPO 未描述的新概念。我们还对生物医学文献进行了案例研究,说明如何识别和提取新的表型信息。我们在多个方面比较了基于 BERT 和基于 GPT 的模型进行表型标记,包括模型架构、内存使用、速度、准确性和隐私保护。此外,我们还讨论了将否定步骤和 HPO 规范化层添加到 Transformer 模型中,以改进 HPO 术语标记。总之,PhenoBCBERT 和 PhenoGPT 可以实现从临床记录和生物医学文献中自动发现表型术语,从而促进自动的下游任务,以获得关于人类疾病的新的生物学见解。
Aug, 2023
使用基于 Transformer 的模型 AnonCAT,在全球医疗数据中改进了患者隐私保护,通过细调和本地化实现了去标识化算法的真实世界应用蓝图。
Oct, 2023
本文实证展示了预训练语言模型在多语言跨领域少样本学习任务中的交叉语言迁移特性,并将其应用于解决缺乏数据和真实世界挑战的混合代码(西班牙语 - 加泰罗尼亚语)临床笔记:保护个人隐私信息的命名实体识别。
Apr, 2022
本文通过使用领域专有词汇和大规模临床训练语料库,使用双向编码器解码器(BERT)模型对医疗语言推理任务进行分析和评估,与公共基准任务上同等规模的公开可用的最佳生物医学语言模型相比,我们的模型表现相同,并且在使用 UCSF 数据的两个任务的系统内评估中优于这些模型,但需要进一步的研究来提高缩写、数字、时间和隐含因果推理的准确性。
Oct, 2022