超越准确性：大规模真实世界临床文本数据的自动化去识别

Dec, 2023

超越准确性：大规模真实世界临床文本数据的自动化去识别

Beyond Accuracy: Automated De-Identification of Large Real-World Clinical Text Datasets

Veysel Kocaman, Hasham Ul Haq, David Talby

TL;DR构建一个自动化系统以去识别超过十亿条临床笔记，通过使用混合的基于上下文的模型体系结构，在可靠且链接的匿名文档方面提供实用的解决方案。

Abstract

Recent research advances achieve human-level accuracy for de-identifying free-text clinical notes on research datasets, but gaps remain in reproducing this in large real-world settings. This paper summarizes lessons learned from building a system used to de-identify over one billion re

de-identification clinical notes automated solution context-based model data obfuscation

发现论文，激发创造

临床数据仓库中自然语言处理算法的开发和验证，用于匿名化文件

本研究的目标是解决临床报告去识别化的问题，以允许访问数据以进行研究，同时确保患者隐私。作者通过使用深度学习模型和手动规则，对临床文件进行伪匿名化，取得了 0.99 的 F1 评分，并分享了相关代码和指南。

Mar, 2023

基于神经语言模型的可共享合成临床记录自动生成技术的研究

研究使用生成模型生成合成临床笔记，以更好地保护患者隐私并促进临床 NLP 模型的开发。

May, 2019

一种易于使用且稳健的差分隐私临床文本去识别方法

本研究提出了一种可靠的具有差分隐私技术的去识别名字实体的替换方法，使用此方法可以对法语临床文件进行去识别，并且具有扩展性和可靠性。

Nov, 2022

利用自然语言处理进行临床自由文本去识别的当前方法综述

电子健康记录（EHRs）是数据驱动型医学研究的宝贵资源，而去识别（即去除个人健康信息）是使 EHR 数据可供研究目的共享的关键步骤。本研究系统审查了过去 13 年临床自由文本去识别的发展，并报告了目前最先进系统的性能和局限性，并识别了该领域的挑战和研究机会。

Nov, 2023

在临床领域进行联合去标识化和概念提取，缩小差距

本研究聚焦于在医疗领域中对自然语言处理的实际应用，通过研究数据的自动匿名化对概念提取的影响，探究得到同时考虑隐私信息保护和概念提取的最新解决方案。结果表明提出的多任务模型 F1 值达到了 96.1% 和 88.9%，取得了当前最先进的技术水平。

May, 2020

利用循环神经网络进行患者笔记的去识别化

该研究基于人工神经网络模型，提出了一种无需人为特征设计和规则的自动化病历去识别系统，其在两个数据集上的表现优于现有系统，支持使用 ANNs 进行病例记录的去识别。

Jun, 2016

基于现代命名实体识别技术的自由文本健康记录去识别化基准测试

本研究旨在探究采用基于深度学习的命名实体识别 (NER) 方法在坚持保留医疗数据隐私的前提下，如何更好地去识别和去除医疗记录中的敏感信息，进而使得医疗数据可以用于科学研究。其中，BiLSTM-CRF 被发现是最佳的编码 / 解码器组合方式之一；字符嵌入和 CRF 的使用倾向于在精度和召回率之间做出权衡；而单独使用 Transformer 作为上下文编码器的效果相对较差。未来的研究可以尝试结构化医疗文本以获得更好的语义和句法信息，以进一步提高 EHR 去识别效果。

Mar, 2021

临床实体提取机器学习的稳健基准测试

本研究运用新的注释框架拟定临床实体抽取的评估标准，并发现现有的医学词汇一致性、数据标签限制、评估技术瓶颈等问题仍需要解决，因此提出了解决方案来推动临床实体识别和标准化的发展。

Jul, 2020

DeID-GPT：GPT-4 零痕迹医疗文本去识别

该研究使用 GPT-4 大型语言模型开发了一种名为 DeID-GPT 的新的医学文本数据去识别框架，通过在医学领域使用零 - shot 上下文学习识别模型保护隐私信息，并保留文本的原始结构和含义，比起现有方法 DeID-GPT 的准确性最高，可在更广泛的情境下使用。

Mar, 2023

基于 Few-Shot 的跨语言迁移方法用于混合代码临床文本的粗粒度去识别化

本文实证展示了预训练语言模型在多语言跨领域少样本学习任务中的交叉语言迁移特性，并将其应用于解决缺乏数据和真实世界挑战的混合代码（西班牙语 - 加泰罗尼亚语）临床笔记：保护个人隐私信息的命名实体识别。

Apr, 2022