使用编码器 - 解码器模型,可以从电子健康记录中生成实际数据的一些病人的主诉文本,而且能够去除数据中的个人信息和不常见的缩写和拼写错误,这种模型的算法可以与生成敌对网络(GANs)等算法结合使用,生成完全合成的电子健康记录,这有助于医疗保健提供者和研究人员之间的数据共享,也有助于我们开发出更适合于医疗数据中信息的机器学习方法。
Jun, 2018
本文研究提出一种新的文本数据增强方法,利用 GPT-2 生成病人电子病历中的临床记录作为额外的训练数据,用于预测病人的不良预后,实验证明了该数据增强方法的有效性。
Nov, 2022
本文提出了一种基于生成对抗网络的方法(medGAN),用于生成逼真的合成病人记录数据,并证明其可行性及隐私风险。
Mar, 2017
通过使用从 CEHR-BERT 导出的特定患者表征,我们展示了使用 GPT 模型来生成患者序列,并能够无缝转换为 OMOP 数据格式的能力。
Feb, 2024
通过合成数据生成技术来提升临床文档编制的方法,生成高质量的合成文本以准确和高效地改善现有的文档工作流程,进而改善病患护理、减少行政负担和提高医疗系统效率。
Jun, 2024
本研究旨在探究将 ChatGPT 应用于临床文本挖掘中,针对生物命名实体识别和关系抽取,我们提出了一种基于生成大量合成数据进行本地模型微调的训练范式。结果表明,这种方法显著提高了下游任务的性能,同时缓解了数据隐私问题。
Mar, 2023
使用扩散模型生成混合类型的电子病历在数据质量、效用和增强方面超过其他现有模型,但在隐私方面存在同质化风险。
Feb, 2023
本文提出了一种预测病历记录中病人的过去数据,包括人口统计学,检验,药物和过去的笔记,预测未来笔记内容的新型语言建模任务,并使用公开的、去个人化的 MIMIC-III 数据集训练生成模型。我们发现大部分笔记的内容都可以被预测,并且学习了许多常见的笔记模板。本文探讨了这样的模型如何在支持辅助笔记编写功能方面是有用的,比如错误检测和自动完成。
Aug, 2018
本研究综述了生成模型在合成各种医学数据类型方面的广泛应用,探索了合成应用、生成技术和评估方法等方面的见解,强调了医学数据的唯一性和临床应用的需求。同时,研究也揭示了医学图像评估方法的不足之处,呼吁进行深入评估、基准测试和比较研究以促进开放和合作。
本文提出了一种基于语言模型将电子医疗记录 (EHRs) 的生成形式转化为文本翻译任务的方法,使得事件插入更加灵活。该方法实现了根据数值和分类人口特征来控制生成的提示学习方式,其评估了两个迷惑度度量,考虑了纵向和跨模态插值的关系,同时利用了隐私保护评估的两个对手,展现了其在 MIMIC-III 数据上生成现实 EHRs 的优越性 (平均 longitudinal imputation perplexity 降低 53.1% 和平均 cross-modality imputation perplexity 降低 45.3% 与最佳基线相比)。
Oct, 2022