本研究旨在探讨利用预训练的大型语言模型 (ChatGPT) 进行数据增强来识别电子病历中的关键因素,结果表明基于 ChatGPT 的数据增强对药物识别和药物事件分类任务的性能提高有益。
Jun, 2023
该研究提出了一种基于机器学习和自然语言处理的方法,叫做 mtGAN,用于生成电子病历文本数据,以解决医疗数据难以获得、保密性高的问题,并在中文电子病历文本数据集上进行了评估,取得了一定的成果。
Dec, 2018
使用命名实体识别和链接工具(即 MedCAT)对电子病历的自由文本部分进行结构化和组织,从而预测出一系列的未来医疗事件(最初是疾病),MedGPT 有效地处理了噪声和额外细粒度, 并在 King's College Hospital 的真实世界医院数据上表现出色。
Jul, 2021
本文提出了一种基于 ChatGPT 的文本数据增强方法(AugGPT),通过将训练样本中的每个句子重新表达为多个概念上相似但语义上不同的样本,提高了数据不变性和样本大小,并在少样本学习文本分类任务上取得了优越性能。
Feb, 2023
本文提出了一种预测病历记录中病人的过去数据,包括人口统计学,检验,药物和过去的笔记,预测未来笔记内容的新型语言建模任务,并使用公开的、去个人化的 MIMIC-III 数据集训练生成模型。我们发现大部分笔记的内容都可以被预测,并且学习了许多常见的笔记模板。本文探讨了这样的模型如何在支持辅助笔记编写功能方面是有用的,比如错误检测和自动完成。
Aug, 2018
通过合成数据生成技术来提升临床文档编制的方法,生成高质量的合成文本以准确和高效地改善现有的文档工作流程,进而改善病患护理、减少行政负担和提高医疗系统效率。
Jun, 2024
本文提出了一种从医疗电子健康系统中提取伴随临床记录的方法,并使用这些数据综合研究了不同模型和数据利用方法对于更好的医疗任务预测的影响。结果表明,我们的融合模型优于不包含临床记录的最新方法,这证明了我们的融合方法的重要性和临床注意点特征的价值。
Oct, 2021
本研究探索了一种名为 GenAug 的文本生成数据增强方法,利用包括外部知识在内的各种增强方法在 Yelp 评论的子集上进行 GPT-2 微调,并研究了增强数量与生成文本质量之间的关系,实验表明插入字符级合成噪声和使用上位词进行关键词替换是有效的增强方法,生成质量在原始数据量的三倍左右达到峰值。
Oct, 2020
本研究评估了自然语言文本生成器在多个与安全相关的文本分类任务中填补不足的数据差距方面的应用,并考虑了训练集中不均衡类别的影响。通过使用三种针对冒犯性语言检测、评论欺诈检测和短信垃圾检测的最新分类器进行评估,我们发现使用 GPT-3 数据增强策略训练的模型优于未使用增强和使用常见数据增强策略训练的模型;特别是在已知阳性样本严重不足的情况下,GPT-3 数据增强策略带来了显著的好处。
Oct, 2023
通过使用从 CEHR-BERT 导出的特定患者表征,我们展示了使用 GPT 模型来生成患者序列,并能够无缝转换为 OMOP 数据格式的能力。
Feb, 2024