合成电子病历文本生成

Dec, 2018

Generation of Synthetic Electronic Medical Record Text

Jiaqi Guan, Runzhe Li, Sheng Yu, Xuegong Zhang

TL;DR该研究提出了一种基于机器学习和自然语言处理的方法，叫做 mtGAN，用于生成电子病历文本数据，以解决医疗数据难以获得、保密性高的问题，并在中文电子病历文本数据集上进行了评估，取得了一定的成果。

Abstract

machine learning (ML) and natural language processing (NLP) have achieved remarkable success in many fields and have brought new opportunities and high expectation in the analyses of medical data. The most common

machine learning natural language processing electronic medical records data generation data privacy

发现论文，激发创造

电子健康档案的自然语言生成

使用编码器 - 解码器模型，可以从电子健康记录中生成实际数据的一些病人的主诉文本，而且能够去除数据中的个人信息和不常见的缩写和拼写错误，这种模型的算法可以与生成敌对网络（GANs）等算法结合使用，生成完全合成的电子健康记录，这有助于医疗保健提供者和研究人员之间的数据共享，也有助于我们开发出更适合于医疗数据中信息的机器学习方法。

Jun, 2018

用于患者预后预测的文本数据增强

本文研究提出一种新的文本数据增强方法，利用 GPT-2 生成病人电子病历中的临床记录作为额外的训练数据，用于预测病人的不良预后，实验证明了该数据增强方法的有效性。

Nov, 2022

利用生成对抗网络生成多标签离散化患者记录

本文提出了一种基于生成对抗网络的方法（medGAN），用于生成逼真的合成病人记录数据，并证明其可行性及隐私风险。

Mar, 2017

CEHR-GPT：生成具有时间轴的电子健康记录

通过使用从 CEHR-BERT 导出的特定患者表征，我们展示了使用 GPT 模型来生成患者序列，并能够无缝转换为 OMOP 数据格式的能力。

Feb, 2024

利用生成模型提升临床文档的质量

通过合成数据生成技术来提升临床文档编制的方法，生成高质量的合成文本以准确和高效地改善现有的文档工作流程，进而改善病患护理、减少行政负担和提高医疗系统效率。

Jun, 2024

低语言模型 (Synthetic Data Generation of LLMs) 是否有助于临床文本挖掘？

本研究旨在探究将 ChatGPT 应用于临床文本挖掘中，针对生物命名实体识别和关系抽取，我们提出了一种基于生成大量合成数据进行本地模型微调的训练范式。结果表明，这种方法显著提高了下游任务的性能，同时缓解了数据隐私问题。

Mar, 2023

使用扩散模型综合混合类型的电子健康记录

使用扩散模型生成混合类型的电子病历在数据质量、效用和增强方面超过其他现有模型，但在隐私方面存在同质化风险。

Feb, 2023

电子健康档案中的笔记撰写学习

本文提出了一种预测病历记录中病人的过去数据，包括人口统计学，检验，药物和过去的笔记，预测未来笔记内容的新型语言建模任务，并使用公开的、去个人化的 MIMIC-III 数据集训练生成模型。我们发现大部分笔记的内容都可以被预测，并且学习了许多常见的笔记模板。本文探讨了这样的模型如何在支持辅助笔记编写功能方面是有用的，比如错误检测和自动完成。

Aug, 2018

多种医学模态下的合成数据生成人工智能：最新发展及挑战的系统综述

本研究综述了生成模型在合成各种医学数据类型方面的广泛应用，探索了合成应用、生成技术和评估方法等方面的见解，强调了医学数据的唯一性和临床应用的需求。同时，研究也揭示了医学图像评估方法的不足之处，呼吁进行深入评估、基准测试和比较研究以促进开放和合作。

Jun, 2024

PromptEHR: 基于 Prompt 学习的条件式电子健康记录生成

本文提出了一种基于语言模型将电子医疗记录 (EHRs) 的生成形式转化为文本翻译任务的方法，使得事件插入更加灵活。该方法实现了根据数值和分类人口特征来控制生成的提示学习方式，其评估了两个迷惑度度量，考虑了纵向和跨模态插值的关系，同时利用了隐私保护评估的两个对手，展现了其在 MIMIC-III 数据上生成现实 EHRs 的优越性 (平均 longitudinal imputation perplexity 降低 53.1% 和平均 cross-modality imputation perplexity 降低 45.3% 与最佳基线相比)。

Oct, 2022