大型语言模型在注册营养师考试中的准确性与一致性:提示工程与知识检索的影响
通过对 USMLE 和 MultiMedQA 基准数据集的全面评估,我们发现不需要专门的提示造型来激发 GPT-4,它的表现超过了 USMLE 的合格分数约 20 分,并表现优于早期的通用模型(GPT-3.5)以及专门针对医学知识进行细化调整的模型(Med-PaLM,Flan-PaLM540B的提示调整版本)。
Mar, 2023
本研究评估了GPT-3.5、GPT-4、Falcon和LLaMA 2等最先进的大型语言模型在从出院摘要中识别患有轻度认知障碍(MCI)的患者的能力,并检查模型响应与其推理不一致的情况。研究结果强调了提示工程的重要性和对GPT-4中观察到的意外推理-响应不一致性进一步探索的需求,突显了将大型语言模型应用于医疗诊断的潜力,前提是在方法论上取得进步以确保人工智能生成的输出准确性和临床连贯性,从而提高大型语言模型在医疗决策中的可信度。
Dec, 2023
通过医生评注和认定的方法,我们研究了三种通用大型语言模型(LLMs)在理解和处理真实世界临床笔记中的性能,并发现GPT-4整体表现优于其他LLMs。此外,我们开发了一个全面的定性性能评估框架,旨在验证LLMs在处理复杂医学数据方面的能力,并为将来在专门领域的LLM评估建立基准。
Jan, 2024
使用知识注入的大型语言模型驱动的对话卫生代理 (Conversational Health Agent, CHA) 进行糖尿病患者的管理,通过整合外部知识和分析能力,包括美国糖尿病协会的膳食指南和Nutritionix的信息,以及营养摄入计算和与指南的比较等分析工具,与GPT4相比,该代理在生成管理重要营养素的回答方面表现出更好的性能。
Feb, 2024
利用大型语言模型(LLMs)协助和纠正医生在医疗决策任务中的潜力进行探索,研究评估了几个LLMs,包括Meditron、Llama2和Mistral,以分析这些模型在不同场景下与医生有效互动的能力,并认为提示设计显著影响LLMs的下游准确性,LLMs能够为医生提供有价值的反馈,挑战错误诊断,促进更准确的决策,同时还揭示了确保LLM生成的建议相关和有用的挑战,强调了进一步研究的需求。
Mar, 2024
对大型语言模型在处理安全生物医学自然语言推理问题上的鲁棒性和一致性进行了研究,利用检索增强生成框架对预训练语言模型进行了比较分析,并在零样本设置下评估了它们的推理和解决问题能力。
Apr, 2024
我们评估了在临床试验报告数据集上使用医学领域的热门开源和闭源大型语言模型的自然语言推理能力,并分析了它们在具有医学缩写和数量-定量推理要求的挑战性实例上的表现。Gemini,我们的领先大型语言模型,在测试集上获得了0.748的F1分数,在任务排行榜上位列第九。我们的工作是第一种在医学领域内全面检验大型语言模型的推理能力的工作。
May, 2024
该文章介绍了使用GPT-4(一个大型语言模型)快速可行性研究来(半)自动化系统性综述中的数据提取,在设计和评估LLM-based自动化工具方面仍然存在欠缺的问题。
May, 2024
利用模拟医学考题的方法评估大型语言模型在医学领域的表现,发现传统的多项选择题评估方法可能无法准确测量其临床知识和推理能力,而更强调其模式识别技能。这项研究强调了需要更强劲的评估方法,以更好地评估大型语言模型在医学背景下的真实能力。
Jun, 2024
本研究探讨了当前的LLMs在营养与饮食相关应用中的表现不足,尤其是在注册营养师考试中的准确性与一致性。研究首次评估了多种提示方法对模型表现的影响,发现GPT-4o在链式思维自一致性提示下表现最佳,而选择合适的LLM和提示技术能有效降低饮食和营养聊天机器人的错误与风险。
Aug, 2024