临床数据仓库中自然语言处理算法的开发和验证，用于匿名化文件

Mar, 2023

临床数据仓库中自然语言处理算法的开发和验证，用于匿名化文件

Development and validation of a natural language processing algorithm to pseudonymize documents in the context of a clinical data warehouse

PDF

Xavier Tannier, Perceval Wajsbürt, Alice Calliger, Basile Dura, Alexandre Mouchet...

TL;DR本研究的目标是解决临床报告去识别化的问题，以允许访问数据以进行研究，同时确保患者隐私。作者通过使用深度学习模型和手动规则，对临床文件进行伪匿名化，取得了 0.99 的 F1 评分，并分享了相关代码和指南。

Abstract

The objective of this study is to address the critical issue of de-identification of clinical reports in order to allow access to data for research purposes, while ensuring →

clinical reports de-identification pseudonymization deep learning model patient privacy

发现论文，激发创造

利用自然语言处理进行临床自由文本去识别的当前方法综述

电子健康记录（EHRs）是数据驱动型医学研究的宝贵资源，而去识别（即去除个人健康信息）是使 EHR 数据可供研究目的共享的关键步骤。本研究系统审查了过去 13 年临床自由文本去识别的发展，并报告了目前最先进系统的性能和局限性，并识别了该领域的挑战和研究机会。

Nov, 2023

超越准确性：大规模真实世界临床文本数据的自动化去识别

构建一个自动化系统以去识别超过十亿条临床笔记，通过使用混合的基于上下文的模型体系结构，在可靠且链接的匿名文档方面提供实用的解决方案。

Dec, 2023

一种易于使用且稳健的差分隐私临床文本去识别方法

本研究提出了一种可靠的具有差分隐私技术的去识别名字实体的替换方法，使用此方法可以对法语临床文件进行去识别，并且具有扩展性和可靠性。

Nov, 2022

基于神经语言模型的可共享合成临床记录自动生成技术的研究

研究使用生成模型生成合成临床笔记，以更好地保护患者隐私并促进临床 NLP 模型的开发。

May, 2019

在临床领域进行联合去标识化和概念提取，缩小差距

本研究聚焦于在医疗领域中对自然语言处理的实际应用，通过研究数据的自动匿名化对概念提取的影响，探究得到同时考虑隐私信息保护和概念提取的最新解决方案。结果表明提出的多任务模型 F1 值达到了 96.1% 和 88.9%，取得了当前最先进的技术水平。

May, 2020

患者笔记去识别化的深度学习架构：实现和评估

本文基于深度上下文词嵌入和变分的 Bi-LSTM 模型，使用最新的自然语言处理技术，实现从临床记录中去除个人身份信息的任务，以两个黄金标准数据集为基础，并证明该架构在性能上达到了最先进的水平，同时在没有使用字典或其他知识源的情况下，收敛速度更快。

Oct, 2018

基于匿名化的隐私和效用保护自然语言处理：假名化案例研究

本研究探讨了不同的假名化技术在各种数据集和用于两种广泛使用的 NLP 任务（文本分类和摘要）的模型中的有效性，重点关注假名化技术对原始数据和模型质量之间差距的关键见解，并促进未来研究更高质量的匿名化技术，以更好地平衡数据保护和效用保护之间的权衡。其中，代码、假名化数据集和下游模型均可公开获取。

Jun, 2023

临床文本处理中哪种匿名技术最好？──这要看任务。一项系统研究

探究匿名化技术对多种 NLP 任务中 ML 模型性能的影响，旨在寻找更好的匿名化技术，同时发现一些技术并不能有效避免由相似性搜索发起的重新识别攻击。

Sep, 2022

隐形分类器：对敏感分类任务的伪姓名策略

分享我们的指南以及我们在处理敏感 NLP 数据时遇到的挑战和结果数据集，强调在数据共享中保护隐私的重要性，并确保数据的实用性和稳健的隐私保障。

Jun, 2024

针对医疗记录去标识化的保护隐私文本表示的对抗性学习

本论文提出使用 LSTM-CRF 模型和隐私保护技术，创造出不含保护健康信息的医疗文本表示来训练医疗文本去识别化，达到了 97.4% 的 F1 得分。

Jun, 2019