医疗文本数据去识别化的 Transformer 模型比较评估

Mar, 2022

医疗文本数据去识别化的 Transformer 模型比较评估

A Comparative Evaluation Of Transformer Models For De-Identification Of Clinical Text Data

Christopher Meaney, Wali Hakimpour, Sumeet Kalia, Rahim Moineddin

TL;DR比较评估了几种变压器模型架构在识别医疗文本中的受保护健康信息方面的表现，ROBERTA-large 模型在 i2b2/UTHealth 2014 语料库中的表现最佳。

Abstract

Objective: To comparatively evaluate several transformer model architectures at identifying protected health information (PHI) in the i2b2/UTHealth 2014 →

transformer model architectures protected health information clinical text de-identification hyper-parameters roberta-large models

发现论文，激发创造

BERT 在临床笔记上的预训练是否会透露敏感数据？

本文描述了一系列旨在从已训练的 BERT 模型中恢复个人健康信息 (PHI) 的方法，同时提供了实验设置和基准探测模型，以促进类似研究。结果显示简单的探测方法无法有效地从 MIMIC-III EHR 训练的 BERT 中提取敏感信息，但更复杂的 “攻击” 可能会成功。因此，释放训练过的类似 EHR 的 BERT 模型是否存在数据隐私问题，需要更加深入的研究。

Apr, 2021

基于现代命名实体识别技术的自由文本健康记录去识别化基准测试

本研究旨在探究采用基于深度学习的命名实体识别 (NER) 方法在坚持保留医疗数据隐私的前提下，如何更好地去识别和去除医疗记录中的敏感信息，进而使得医疗数据可以用于科学研究。其中，BiLSTM-CRF 被发现是最佳的编码 / 解码器组合方式之一；字符嵌入和 CRF 的使用倾向于在精度和召回率之间做出权衡；而单独使用 Transformer 作为上下文编码器的效果相对较差。未来的研究可以尝试结构化医疗文本以获得更好的语义和句法信息，以进一步提高 EHR 去识别效果。

Mar, 2021

面向临床自然语言处理的轻量级 Transformer

通过知识蒸馏和不断学习等技术，本研究着眼于发展处理临床文本的高效轻量级语言模型，与生物医学文本数据训练的大型模型相比，这些模型效果相当甚至更好，并超越了任何其他训练过的小型模型在自然语言推理、关系提取、命名实体识别和序列分类等临床文本挖掘任务上的表现。

Feb, 2023

超越准确性：大规模真实世界临床文本数据的自动化去识别

构建一个自动化系统以去识别超过十亿条临床笔记，通过使用混合的基于上下文的模型体系结构，在可靠且链接的匿名文档方面提供实用的解决方案。

Dec, 2023

基于 Transformer 模型的临床关系提取

研究比较了 BERT、RoBERTa 和 XLNet 三种 transformer 模型在临床关系抽取方面的性能，发现 RoBERTa-clinical 以 0.8958 的 F1-score 在 2018 MADE1.0 数据集上表现最好，XLNet-clinical 以 0.9610 的 F1-score 在 2018 n2c2 数据集上表现最好。在生物医学领域中，研究者们可以使用我们开发的开源工具包进行进一步的相关 NLP 任务分析。

Jul, 2021

电子病历上乳腺癌表型 NLP 算法跨院评估

本研究通过乳腺癌表型提取任务，评估了基于 BERT 的临床自然语言处理模型在不同临床设置下的普适性。结果表明，CancerBERT 模型具有最佳的学习能力和普适性，并且模型的普适性与样本之间的相似度有关。

Mar, 2023

利用大型语言模型增强临床笔记中的表型识别：PhenoBCBERT 和 PhenoGPT

通过基于 Transformer 结构的大型语言模型（LLMs），我们可以自动检测临床表型术语，包括未记录在 HPO 中的术语。在本研究中，我们开发了两种模型：PhenoBCBERT，一种基于 BERT 的模型，利用 Bio+Clinical BERT 作为其预训练模型，和 PhenoGPT，一种基于 GPT 的模型，可以从各种 GPT 模型（包括开源版本和专有版本）初始化。我们发现我们的方法可以提取更多的表型概念，包括 HPO 未描述的新概念。我们还对生物医学文献进行了案例研究，说明如何识别和提取新的表型信息。我们在多个方面比较了基于 BERT 和基于 GPT 的模型进行表型标记，包括模型架构、内存使用、速度、准确性和隐私保护。此外，我们还讨论了将否定步骤和 HPO 规范化层添加到 Transformer 模型中，以改进 HPO 术语标记。总之，PhenoBCBERT 和 PhenoGPT 可以实现从临床记录和生物医学文献中自动发现表型术语，从而促进自动的下游任务，以获得关于人类疾病的新的生物学见解。

Aug, 2023

验证变压器在真实世界的医疗保健中用于电子健康记录的文本遮蔽

使用基于 Transformer 的模型 AnonCAT，在全球医疗数据中改进了患者隐私保护，通过细调和本地化实现了去标识化算法的真实世界应用蓝图。

Oct, 2023

基于 Few-Shot 的跨语言迁移方法用于混合代码临床文本的粗粒度去识别化

本文实证展示了预训练语言模型在多语言跨领域少样本学习任务中的交叉语言迁移特性，并将其应用于解决缺乏数据和真实世界挑战的混合代码（西班牙语 - 加泰罗尼亚语）临床笔记：保护个人隐私信息的命名实体识别。

Apr, 2022

从大规模临床记录中开发出通用的临床语言推断模型

本文通过使用领域专有词汇和大规模临床训练语料库，使用双向编码器解码器（BERT）模型对医疗语言推理任务进行分析和评估，与公共基准任务上同等规模的公开可用的最佳生物医学语言模型相比，我们的模型表现相同，并且在使用 UCSF 数据的两个任务的系统内评估中优于这些模型，但需要进一步的研究来提高缩写、数字、时间和隐含因果推理的准确性。

Oct, 2022