电子健康记录(EHRs)是数据驱动型医学研究的宝贵资源,而去识别(即去除个人健康信息)是使 EHR 数据可供研究目的共享的关键步骤。本研究系统审查了过去 13 年临床自由文本去识别的发展,并报告了目前最先进系统的性能和局限性,并识别了该领域的挑战和研究机会。
Nov, 2023
本文介绍了两种基于 CRF 和 LSTM 的参与系统,使用预处理进行标记和分词,LSTM 的表现较好。
Sep, 2017
本研究旨在探究采用基于深度学习的命名实体识别 (NER) 方法在坚持保留医疗数据隐私的前提下,如何更好地去识别和去除医疗记录中的敏感信息,进而使得医疗数据可以用于科学研究。其中,BiLSTM-CRF 被发现是最佳的编码 / 解码器组合方式之一;字符嵌入和 CRF 的使用倾向于在精度和召回率之间做出权衡;而单独使用 Transformer 作为上下文编码器的效果相对较差。未来的研究可以尝试结构化医疗文本以获得更好的语义和句法信息,以进一步提高 EHR 去识别效果。
Mar, 2021
本研究构建了一个数据集,测试了三种去匿名化方法在荷兰三个领域的医学记录中的泛化能力。结果显示,基于规则的方法不能很好地推广到新数据,而最新的神经网络结构则表现出色,在有限的训练数据下也能跨语言和领域表现出良好的性能。
Jan, 2020
该研究基于人工神经网络模型,提出了一种无需人为特征设计和规则的自动化病历去识别系统,其在两个数据集上的表现优于现有系统,支持使用 ANNs 进行病例记录的去识别。
Jun, 2016
研究了当前医疗数据中去标识化的方法对于不同人群的名称的错误率和效果差异,并提出了基于机器学习方法和临床背景的去标识化方法改进方案。
May, 2023
本论文提出使用 LSTM-CRF 模型和隐私保护技术,创造出不含保护健康信息的医疗文本表示来训练医疗文本去识别化,达到了 97.4% 的 F1 得分。
Jun, 2019
本研究提出了一种可靠的具有差分隐私技术的去识别名字实体的替换方法,使用此方法可以对法语临床文件进行去识别,并且具有扩展性和可靠性。
Nov, 2022
研究使用生成模型生成合成临床笔记,以更好地保护患者隐私并促进临床 NLP 模型的开发。
May, 2019
构建一个自动化系统以去识别超过十亿条临床笔记,通过使用混合的基于上下文的模型体系结构,在可靠且链接的匿名文档方面提供实用的解决方案。
Dec, 2023