自动去识别纵向临床叙述的调查

Oct, 2018

A survey of automatic de-identification of longitudinal clinical narratives

Vithya Yogarajan, Michael Mayo, Bernhard Pfahringer

TL;DR本文探讨了对医疗数据进行去识别化处理的技术的发展与趋势，重点关注了从规则到深度学习的技术演变，以及 2014 年和 2016 年竞赛的结果和可能的研究问题。

Abstract

Use of medical data, also known as electronic health records, in research helps develop and advance medical science. However, protecting p

medical data electronic health records de-identification research deep learning

发现论文，激发创造

利用自然语言处理进行临床自由文本去识别的当前方法综述

电子健康记录（EHRs）是数据驱动型医学研究的宝贵资源，而去识别（即去除个人健康信息）是使 EHR 数据可供研究目的共享的关键步骤。本研究系统审查了过去 13 年临床自由文本去识别的发展，并报告了目前最先进系统的性能和局限性，并识别了该领域的挑战和研究机会。

Nov, 2023

使用条件随机场和长短期记忆网络对医疗记录进行去识别化

本文介绍了两种基于 CRF 和 LSTM 的参与系统，使用预处理进行标记和分词，LSTM 的表现较好。

Sep, 2017

基于现代命名实体识别技术的自由文本健康记录去识别化基准测试

本研究旨在探究采用基于深度学习的命名实体识别 (NER) 方法在坚持保留医疗数据隐私的前提下，如何更好地去识别和去除医疗记录中的敏感信息，进而使得医疗数据可以用于科学研究。其中，BiLSTM-CRF 被发现是最佳的编码 / 解码器组合方式之一；字符嵌入和 CRF 的使用倾向于在精度和召回率之间做出权衡；而单独使用 Transformer 作为上下文编码器的效果相对较差。未来的研究可以尝试结构化医疗文本以获得更好的语义和句法信息，以进一步提高 EHR 去识别效果。

Mar, 2021

比较基于规则、特征和深度神经方法在荷兰医疗记录去识别化方面的效果

本研究构建了一个数据集，测试了三种去匿名化方法在荷兰三个领域的医学记录中的泛化能力。结果显示，基于规则的方法不能很好地推广到新数据，而最新的神经网络结构则表现出色，在有限的训练数据下也能跨语言和领域表现出良好的性能。

Jan, 2020

利用循环神经网络进行患者笔记的去识别化

该研究基于人工神经网络模型，提出了一种无需人为特征设计和规则的自动化病历去识别系统，其在两个数据集上的表现优于现有系统，支持使用 ANNs 进行病例记录的去识别。

Jun, 2016

公平起见：评估医疗记录去识别中的偏差

研究了当前医疗数据中去标识化的方法对于不同人群的名称的错误率和效果差异，并提出了基于机器学习方法和临床背景的去标识化方法改进方案。

May, 2023

针对医疗记录去标识化的保护隐私文本表示的对抗性学习

本论文提出使用 LSTM-CRF 模型和隐私保护技术，创造出不含保护健康信息的医疗文本表示来训练医疗文本去识别化，达到了 97.4% 的 F1 得分。