评估儿科眼科中的多种大型语言模型
本研究评估了三个不同的大型语言模型(GPT-3.5、GPT-4 和 PaLM2)在回答眼科专业问题方面的表现,并将其与三个不同的专业人员群体(医学本科生、医学硕士和主治医师)进行了比较。结果显示,GPT-4 代表的 LM 在眼科领域表现更好,未来在医学教育和临床决策方面将带来意想不到的好处。
Nov, 2023
通过与人类医学专家的对齐评估,评估 GPT-4 对由经过微调的 LLM 聊天机器人生成的与眼科相关的患者问题回答的准确性,结果显示 GPT-4 评估在临床一致性方面具有显著优势,有潜力简化 LLM 应用于医疗健康领域的临床评估,提供一种有效自动的评估方式来协助未来 LLM 应用的验证。
Feb, 2024
通过三种优化策略,我们引入了专门设计用于眼科学的 EyeGPT,该模型的综合评估框架包括不同领域的眼科学数据集、不同用户和多样化的查询意图。该模型在可理解性、可信度和同理心方面与人类眼科医生相当,为开发专门的大型语言模型在眼科学中提供了有价值的见解。
Feb, 2024
本研究研究使用 LLMS 答题的能力。我们开发了一个包含 100 个肿瘤放射物理学问题的考试,将四个 LLM(ChatGPT(GPT-3.5),ChatGPT(GPT-4),巴德(LaMDA)和 BLOOMZ)与医学物理学家和非专业人员进行了评估。ChatGPT(GPT-4)平均表现优于所有其他 LLM 以及医学物理学家。ChatGPT(GPT-4)在被激发先解释,然后再回答的情况下表现得更好。ChatGPT(GPT-4)展示了出人意料的准确性,表明了一种新颖的推理能力,但存在固有属性以及无法通过大多数投票进一步提高得分。
Apr, 2023
利用大型语言模型 (LLMs) 为患者提供对实验室检测相关问题的相关、准确、有帮助和安全的回答的可行性进行评估,并通过采用增强方法来解决潜在问题。我们通过从 Yahoo! Answers 收集实验室测试问题和答案数据,并使用 LangChain 框架和 ChatGPT 网络门户为 53 个问题生成了来自 GPT-4、Meta LLaMA 2、MedAlpaca 和 ORCA_mini 四个 LLM 的回答。通过评估相似度和医学专家的人工评估,结果表明 GPT-4 的回答在相关性、准确性、有帮助性和安全性方面优于其他 LLMs 和人工回答,但偶尔也会出现对医学背景的缺乏解释、错误陈述和缺乏参考等问题。我们发现了提高 LLM 回答质量的多种方法。
Jan, 2024
利用模拟医学考题的方法评估大型语言模型在医学领域的表现,发现传统的多项选择题评估方法可能无法准确测量其临床知识和推理能力,而更强调其模式识别技能。这项研究强调了需要更强劲的评估方法,以更好地评估大型语言模型在医学背景下的真实能力。
Jun, 2024
通过对 USMLE 和 MultiMedQA 基准数据集的全面评估,我们发现不需要专门的提示造型来激发 GPT-4,它的表现超过了 USMLE 的合格分数约 20 分,并表现优于早期的通用模型(GPT-3.5)以及专门针对医学知识进行细化调整的模型(Med-PaLM,Flan-PaLM540B 的提示调整版本)。
Mar, 2023
该研究提出了一种包括多步骤评估法的大型语言模型(LLM)评估范例,通过结构化的交互方式进行多模态 LLM 评估,并通过获取交互数据进行后续领域特定的分析,以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM,使用多模态多项选择题评估其在病理学领域的医学诊断准确性,结果表明其约有 84% 的正确诊断,同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于 GPT-4-Vision-Preview,还可应用于评估其他 LLMs 的准确性和实用性,以进一步优化其应用。
Jan, 2024
该研究调查了大型语言模型(LLMs)在内科专科多项选择测试能力方面的医学知识能力,与 GPT-4 和 Claude 2 相比,当前广泛使用的开源 LLMs 在零 - shot 推理能力方面表现不佳。
Aug, 2023
通过创建高质量数据集 PedCorpus 和应用系统性和稳健的训练流程构建了中国首个儿科大型语言模型助手 PediatricsGPT,以改善诊断效率,解决中国医疗资源匮乏的问题。
May, 2024