医疗数据增强:基于 ChatGPT 的药物识别和药物事件分类案例研究
探索大型语言模型 (LLMs) 在医学应用方面的潜力,特别是在药物监测事件提取方面的 ChatGPT 的能力。我们进行了广泛的实验,评估了 ChatGPT 在药物监测事件提取任务中的性能,并采用了各种提示和演示选择策略。研究结果表明,虽然 ChatGPT 在适当的演示选择策略下表现出了合理的性能,但与完全微调的小型模型相比仍然有所不足。此外,我们探索了利用 ChatGPT 进行数据增强的潜力。然而,我们的研究发现将合成数据引入微调可能会导致性能下降,可能是由于 ChatGPT 生成的标签中存在噪声。为了减轻这个问题,我们探索了不同的过滤策略,并发现在适当的方法下可以实现更稳定的性能,尽管不断改进仍然具有挑战性。
Feb, 2024
本文研究提出一种新的文本数据增强方法,利用 GPT-2 生成病人电子病历中的临床记录作为额外的训练数据,用于预测病人的不良预后,实验证明了该数据增强方法的有效性。
Nov, 2022
使用命名实体识别和链接工具(即 MedCAT)对电子病历的自由文本部分进行结构化和组织,从而预测出一系列的未来医疗事件(最初是疾病),MedGPT 有效地处理了噪声和额外细粒度, 并在 King's College Hospital 的真实世界医院数据上表现出色。
Jul, 2021
在使用真实的大型电子病历数据库进行两项分析后,发现 ChatGPT 和 GPT-4 可以通过思路链和几次提示,准确地完成疾病分类任务,并为卫生保健工作者提供诊断辅助,但是这些模型目前存在错误陈述、忽视重要医学发现、推荐不必要的调查和过度治疗等问题,并伴随有隐私问题,因此仍不适用于现实世界的临床使用。不过,与传统机器学习工作流程的配置相比,这些模型所需的数据和时间较少,突出了它们在卫生保健应用中的可扩展性潜力。
Jul, 2023
本研究旨在探究将 ChatGPT 应用于临床文本挖掘中,针对生物命名实体识别和关系抽取,我们提出了一种基于生成大量合成数据进行本地模型微调的训练范式。结果表明,这种方法显著提高了下游任务的性能,同时缓解了数据隐私问题。
Mar, 2023
本文提出了一种基于 ChatGPT 的文本数据增强方法(AugGPT),通过将训练样本中的每个句子重新表达为多个概念上相似但语义上不同的样本,提高了数据不变性和样本大小,并在少样本学习文本分类任务上取得了优越性能。
Feb, 2023
本研究比较分析了三种生成式预训练转换模型(GPT)在问答环境中的应用:Drug-GPT 3、Drug-GPT 4 和 ChatGPT,并且将其应用于医疗保健领域。研究的目标是确定哪个模型在回答关于特应性皮炎(AD)患者经历和与糖尿病相关的医疗专业人员(HCP)讨论的问题时能提供最准确和相关的信息。结果表明,虽然这三种模型都能生成相关和准确的回答,但 Drug-GPT 3 和 Drug-GPT 4 这两种模型通过病患和医疗专业人员社交媒体和留言板帖子的筛选数据提供了更有针对性和深入的见解。ChatGPT 这种更通用的模型生成了更宽泛和一般性的回答,对于希望获得对主题的整体理解的读者来说可能是有价值的,但可能缺乏 Drug-GPT 模型生成答案中的深度和个人见解。这项比较分析强调了在评估医疗保健应用中生成信息的有用性时考虑语言模型的观点、知识深度和时效性的重要性。
Jul, 2023
该研究提出了一种创新的方法,在临床决策中应用大型语言模型(LLMs),重点关注 OpenAI 的 ChatGPT。我们的方法介绍了在数据稀缺情况下,采用上下文提示(策略性地设计了包括任务描述、特征描述和领域知识整合的提示)进行高质量二元分类任务的应用。我们的研究探索了 LLMs 基于零样本和少样本提示学习的动态性,通过比较 OpenAI 的 ChatGPT 在不同数据条件下与传统监督式机器学习模型的性能,旨在提供对不同数据可用性下提示工程策略有效性的见解。这篇论文架起了人工智能和医疗保健之间的桥梁,提出了一种新的 LLMs 在临床决策辅助系统中的应用方法,并强调了提示设计、领域知识整合和灵活学习方法在增强自动化决策方面的变革潜力。
Aug, 2023
本文介绍了一种从临床笔记的自由文本中自动提取药物变化信息的方法,并用 Contextual Medication Event Dataset (CMED) 数据集识别药物提及。并提出了三种基于 BERT 的高性能系统来解决注释的药物变化特性。研究表明,所提出的系统可以提高药物变化分类性能。
Aug, 2022
该研究调查了大型语言模型在生物医学和健康领域中的多种应用,包括生物医学信息检索、问答、文本摘要、信息提取和医学教育等,并研究了 LLM 是否具有革新这些任务的能力,发现 LLMs 在生物医学文献生成方面已取得了显著进展,但在其他方面,其进展并不太大。虽然大型语言模型在生物医学与健康领域应用的潜力巨大,但其使用也存在某些风险和挑战,例如可疑生成的信息以及涉及敏感病人数据的法律和隐私问题。
Jun, 2023