公平起见：评估医疗记录去识别中的偏差

May, 2023

公平起见：评估医疗记录去识别中的偏差

In the Name of Fairness: Assessing the Bias in Clinical Record De-identification

Yuxin Xiao, Shulammite Lim, Tom Joseph Pollard, Marzyeh Ghassemi

TL;DR研究了当前医疗数据中去标识化的方法对于不同人群的名称的错误率和效果差异，并提出了基于机器学习方法和临床背景的去标识化方法改进方案。

Abstract

data sharing is crucial for open science and reproducible research, but the legal sharing of clinical data requires the removal of protected health information from electronic health records. This process, known as de-i

data sharing de-identification machine learning algorithms clinical notes bias in performance

发现论文，激发创造

利用自然语言处理进行临床自由文本去识别的当前方法综述

电子健康记录（EHRs）是数据驱动型医学研究的宝贵资源，而去识别（即去除个人健康信息）是使 EHR 数据可供研究目的共享的关键步骤。本研究系统审查了过去 13 年临床自由文本去识别的发展，并报告了目前最先进系统的性能和局限性，并识别了该领域的挑战和研究机会。

Nov, 2023

自动去识别纵向临床叙述的调查

本文探讨了对医疗数据进行去识别化处理的技术的发展与趋势，重点关注了从规则到深度学习的技术演变，以及 2014 年和 2016 年竞赛的结果和可能的研究问题。

Oct, 2018

患者笔记去识别化的深度学习架构：实现和评估

本文基于深度上下文词嵌入和变分的 Bi-LSTM 模型，使用最新的自然语言处理技术，实现从临床记录中去除个人身份信息的任务，以两个黄金标准数据集为基础，并证明该架构在性能上达到了最先进的水平，同时在没有使用字典或其他知识源的情况下，收敛速度更快。

Oct, 2018

利用循环神经网络进行患者笔记的去识别化

该研究基于人工神经网络模型，提出了一种无需人为特征设计和规则的自动化病历去识别系统，其在两个数据集上的表现优于现有系统，支持使用 ANNs 进行病例记录的去识别。

Jun, 2016

去识别并不总是足够

通过对真实临床记录进行去识别并生成合成临床记录，我们发现合成数据表现出与真实数据相似的隐私问题，从而引发了合成临床记录是否可以成为敏感真实记录更好替代品的进一步研究的问题。

Jan, 2024

临床数据仓库中自然语言处理算法的开发和验证，用于匿名化文件

本研究的目标是解决临床报告去识别化的问题，以允许访问数据以进行研究，同时确保患者隐私。作者通过使用深度学习模型和手动规则，对临床文件进行伪匿名化，取得了 0.99 的 F1 评分，并分享了相关代码和指南。

Mar, 2023

一种易于使用且稳健的差分隐私临床文本去识别方法

本研究提出了一种可靠的具有差分隐私技术的去识别名字实体的替换方法，使用此方法可以对法语临床文件进行去识别，并且具有扩展性和可靠性。

Nov, 2022

比较基于规则、特征和深度神经方法在荷兰医疗记录去识别化方面的效果

本研究构建了一个数据集，测试了三种去匿名化方法在荷兰三个领域的医学记录中的泛化能力。结果显示，基于规则的方法不能很好地推广到新数据，而最新的神经网络结构则表现出色，在有限的训练数据下也能跨语言和领域表现出良好的性能。

Jan, 2020

超越准确性：大规模真实世界临床文本数据的自动化去识别

构建一个自动化系统以去识别超过十亿条临床笔记，通过使用混合的基于上下文的模型体系结构，在可靠且链接的匿名文档方面提供实用的解决方案。

Dec, 2023

基于神经语言模型的可共享合成临床记录自动生成技术的研究

研究使用生成模型生成合成临床笔记，以更好地保护患者隐私并促进临床 NLP 模型的开发。

May, 2019