赋能临床医生与民主化数据科学:大型语言模型自动化临床研究的机器学习
在使用真实的大型电子病历数据库进行两项分析后,发现 ChatGPT 和 GPT-4 可以通过思路链和几次提示,准确地完成疾病分类任务,并为卫生保健工作者提供诊断辅助,但是这些模型目前存在错误陈述、忽视重要医学发现、推荐不必要的调查和过度治疗等问题,并伴随有隐私问题,因此仍不适用于现实世界的临床使用。不过,与传统机器学习工作流程的配置相比,这些模型所需的数据和时间较少,突出了它们在卫生保健应用中的可扩展性潜力。
Jul, 2023
本研究介绍了一种基于 ChatGPT 的对话式自动化机器学习 (AutoML) 框架作为 “个人数据科学家”,通过多个语言模型实例构建了自然界面,展示了对话式数据科学的新概念,同时也突出了 ChatGPT 的潜在缺陷和改进机会。
May, 2023
研究了人工智能 GPT4 和 GPT3.5 模型在诊断复杂临床病例时的准确性,结果发现模型在多次尝试后能够正确提供正确的诊断和必要的诊断测试,但在复杂、开放性的情况下存在局限性,未来研究应集中于评估模型在更大数据集上的性能和探索增强临床决策的人机协作策略。
May, 2023
本研究评估了使用 ChatGPT 回答医学问题的可靠性,结果发现 ChatGPT 的答案更加上下文相关,代表着较好的演绎推理模型。ChatGPT 等语言学习模型可以成为 e-learners 的宝贵工具,但研究表明还有提高其准确性的空间。
Jun, 2023
该研究提出了一种创新的方法,在临床决策中应用大型语言模型(LLMs),重点关注 OpenAI 的 ChatGPT。我们的方法介绍了在数据稀缺情况下,采用上下文提示(策略性地设计了包括任务描述、特征描述和领域知识整合的提示)进行高质量二元分类任务的应用。我们的研究探索了 LLMs 基于零样本和少样本提示学习的动态性,通过比较 OpenAI 的 ChatGPT 在不同数据条件下与传统监督式机器学习模型的性能,旨在提供对不同数据可用性下提示工程策略有效性的见解。这篇论文架起了人工智能和医疗保健之间的桥梁,提出了一种新的 LLMs 在临床决策辅助系统中的应用方法,并强调了提示设计、领域知识整合和灵活学习方法在增强自动化决策方面的变革潜力。
Aug, 2023
本研究介绍了一种专门为临床场景设计和优化的语言模型 ——ClinicalGPT,通过整合大量临床实际数据、领域特定知识和多轮次对话信息,使其更好地处理多种临床任务,并通过医学知识问答、医学考试、患者咨询和医疗记录的诊断分析等全面评估框架证明其在这些任务中显著优于其他模型,突出了我们的方法在将大型语言模型应用于卫生保健这一关键领域的有效性。
Jun, 2023
研究了大型语言模型在生物医学任务中的性能,并与更简单的模型进行了比较,特别地,探讨了分类和因果关系检测任务。发现精细调整后的模型依然是最佳策略,而简单的词袋模型的表现与最复杂的大型语言模型的表现相当。
Apr, 2023
该研究综述了语言模型在医学成像领域中的应用,重点介绍了不同应用,如图像字幕、报告生成、报告分类、查找提取、视觉问答、可解释性诊断等,并探讨了语言模型在医学影像分析中的潜在优点,包括提高临床工作流程效率、降低诊断错误、协助医疗保健专业人员提供及时准确的诊断。
Apr, 2023
本文对 ChatGPT 的编码能力进行全面评估,重点考察了其在 Python 编程语言和数据结构与算法等基础计算机科学问题上的表现,包括解决问题的能力、代码质量和运行时错误性质,探究了其对训练数据的直接记忆现象,并在各个子主题和难度不等的问题上与人类表现进行对比研究。
Jul, 2023
本文介绍了我们在 MEDIQA-Chat 2023 共享任务中对于从医生 - 患者对话自动生成临床笔记的提交。我们报道了两种方法的结果:第一种微调共享任务数据上的预训练语言模型(PLM),第二种使用大型语言模型(LLM)进行少量样本的上下文学习(ICL)。两种方法在自动指标(如 ROUGE,BERTScore)上均实现了高性能,并分别排名共享任务的二和一位。专业人士的审查表明,通过基于 ICL 的方法和 GPT-4 生成的笔记与人工书写的笔记一样受欢迎,这使其成为从医生 - 患者对话自动生成笔记的有前途的途径。
May, 2023