基于神经语言模型的可共享合成临床记录自动生成技术的研究

May, 2019

基于神经语言模型的可共享合成临床记录自动生成技术的研究

Towards Automatic Generation of Shareable Synthetic Clinical Notes Using Neural Language Models

Oren Melamud, Chaitanya Shivade

TL;DR研究使用生成模型生成合成临床笔记，以更好地保护患者隐私并促进临床 NLP 模型的开发。

Abstract

Large-scale clinical data is invaluable to driving many computational scientific advances today. However, understandable concerns regarding patient privacy hinder the open dissemination of such data and give rise to suboptimal siloed research. →

clinical data patient privacy de-identification methods generative models clinical nlp

发现论文，激发创造

去识别并不总是足够

通过对真实临床记录进行去识别并生成合成临床记录，我们发现合成数据表现出与真实数据相似的隐私问题，从而引发了合成临床记录是否可以成为敏感真实记录更好替代品的进一步研究的问题。

Jan, 2024

通过语言模型生成的合成临床数据提高临床 NLP 性能

利用生成模型生成的合成数据，本研究探讨了利用合成数据提高临床自然语言处理性能的方法。结果显示在这个高风险领域中有可行的应用前景。

Mar, 2024

利用生成模型提升临床文档的质量

通过合成数据生成技术来提升临床文档编制的方法，生成高质量的合成文本以准确和高效地改善现有的文档工作流程，进而改善病患护理、减少行政负担和提高医疗系统效率。

Jun, 2024

利用自然语言处理对网络风险临床注释进行分类

该研究旨在找到评估临床笔记网络风险的有效方法。通过使用不同的分类器开发几个模型，发现 SVM 分类器使用 Word2Vec 特征的最大 F1 分数为 0.792，可用于识别可能包含敏感信息的区域，并用于提高临床笔记完全去识别的识别。

Mar, 2022

超越准确性：大规模真实世界临床文本数据的自动化去识别

构建一个自动化系统以去识别超过十亿条临床笔记，通过使用混合的基于上下文的模型体系结构，在可靠且链接的匿名文档方面提供实用的解决方案。

Dec, 2023

临床数据仓库中自然语言处理算法的开发和验证，用于匿名化文件

本研究的目标是解决临床报告去识别化的问题，以允许访问数据以进行研究，同时确保患者隐私。作者通过使用深度学习模型和手动规则，对临床文件进行伪匿名化，取得了 0.99 的 F1 评分，并分享了相关代码和指南。

Mar, 2023

大型语言模型在临床文本匿名化中的潜力开发：一项比较研究

自动化临床文本匿名化有潜力在保护患者隐私和安全的同时促进医疗数据的广泛共享，本论文提出了基于大型语言模型的新评估指标，并通过与基准技术的比较研究证明了大型语言模型在临床文本匿名化领域的可靠性，为可信的临床文本匿名化铺平了道路。

May, 2024

患者笔记去识别化的深度学习架构：实现和评估

本文基于深度上下文词嵌入和变分的 Bi-LSTM 模型，使用最新的自然语言处理技术，实现从临床记录中去除个人身份信息的任务，以两个黄金标准数据集为基础，并证明该架构在性能上达到了最先进的水平，同时在没有使用字典或其他知识源的情况下，收敛速度更快。

Oct, 2018

一种易于使用且稳健的差分隐私临床文本去识别方法

本研究提出了一种可靠的具有差分隐私技术的去识别名字实体的替换方法，使用此方法可以对法语临床文件进行去识别，并且具有扩展性和可靠性。

Nov, 2022

利用循环神经网络进行患者笔记的去识别化

该研究基于人工神经网络模型，提出了一种无需人为特征设计和规则的自动化病历去识别系统，其在两个数据集上的表现优于现有系统，支持使用 ANNs 进行病例记录的去识别。

Jun, 2016