用于患者预后预测的文本数据增强

Nov, 2022

用于患者预后预测的文本数据增强

Textual Data Augmentation for Patient Outcomes Prediction

Qiuhao Lu, Dejing Dou, Thien Huu Nguyen

TL;DR本文研究提出一种新的文本数据增强方法，利用 GPT-2 生成病人电子病历中的临床记录作为额外的训练数据，用于预测病人的不良预后，实验证明了该数据增强方法的有效性。

Abstract

deep learning models have demonstrated superior performance in various healthcare applications. However, the major limitation of these deep models is usually the lack of high-quality training data due to the priv

deep learning healthcare data augmentation electronic health records predictive model

发现论文，激发创造

医疗数据增强：基于 ChatGPT 的药物识别和药物事件分类案例研究

本研究旨在探讨利用预训练的大型语言模型 (ChatGPT) 进行数据增强来识别电子病历中的关键因素，结果表明基于 ChatGPT 的数据增强对药物识别和药物事件分类任务的性能提高有益。

Jun, 2023

合成电子病历文本生成

该研究提出了一种基于机器学习和自然语言处理的方法，叫做 mtGAN，用于生成电子病历文本数据，以解决医疗数据难以获得、保密性高的问题，并在中文电子病历文本数据集上进行了评估，取得了一定的成果。

Dec, 2018

MedGPT：临床叙述中的医学概念预测

使用命名实体识别和链接工具（即 MedCAT）对电子病历的自由文本部分进行结构化和组织，从而预测出一系列的未来医疗事件（最初是疾病），MedGPT 有效地处理了噪声和额外细粒度，并在 King's College Hospital 的真实世界医院数据上表现出色。

Jul, 2021

AugGPT：利用 ChatGPT 进行文本数据增强

本文提出了一种基于 ChatGPT 的文本数据增强方法（AugGPT），通过将训练样本中的每个句子重新表达为多个概念上相似但语义上不同的样本，提高了数据不变性和样本大小，并在少样本学习文本分类任务上取得了优越性能。

Feb, 2023

电子健康档案中的笔记撰写学习

本文提出了一种预测病历记录中病人的过去数据，包括人口统计学，检验，药物和过去的笔记，预测未来笔记内容的新型语言建模任务，并使用公开的、去个人化的 MIMIC-III 数据集训练生成模型。我们发现大部分笔记的内容都可以被预测，并且学习了许多常见的笔记模板。本文探讨了这样的模型如何在支持辅助笔记编写功能方面是有用的，比如错误检测和自动完成。

Aug, 2018

利用生成模型提升临床文档的质量

通过合成数据生成技术来提升临床文档编制的方法，生成高质量的合成文本以准确和高效地改善现有的文档工作流程，进而改善病患护理、减少行政负担和提高医疗系统效率。

Jun, 2024

如何利用多模态电子病历数据进行更好的医学预测？

本文提出了一种从医疗电子健康系统中提取伴随临床记录的方法，并使用这些数据综合研究了不同模型和数据利用方法对于更好的医疗任务预测的影响。结果表明，我们的融合模型优于不包含临床记录的最新方法，这证明了我们的融合方法的重要性和临床注意点特征的价值。

Oct, 2021

GenAug：用于微调文本生成器的数据增强

本研究探索了一种名为 GenAug 的文本生成数据增强方法，利用包括外部知识在内的各种增强方法在 Yelp 评论的子集上进行 GPT-2 微调，并研究了增强数量与生成文本质量之间的关系，实验表明插入字符级合成噪声和使用上位词进行关键词替换是有效的增强方法，生成质量在原始数据量的三倍左右达到峰值。

Oct, 2020

安全分类任务中的数据集扩增文本生成

本研究评估了自然语言文本生成器在多个与安全相关的文本分类任务中填补不足的数据差距方面的应用，并考虑了训练集中不均衡类别的影响。通过使用三种针对冒犯性语言检测、评论欺诈检测和短信垃圾检测的最新分类器进行评估，我们发现使用 GPT-3 数据增强策略训练的模型优于未使用增强和使用常见数据增强策略训练的模型；特别是在已知阳性样本严重不足的情况下，GPT-3 数据增强策略带来了显著的好处。

Oct, 2023

CEHR-GPT：生成具有时间轴的电子健康记录

通过使用从 CEHR-BERT 导出的特定患者表征，我们展示了使用 GPT 模型来生成患者序列，并能够无缝转换为 OMOP 数据格式的能力。

Feb, 2024