应对医疗语言模型中的认知偏差
我们介绍了 BiasBuster,这是一个旨在发现、评估和减轻大型语言模型中认知偏见的框架。通过在心理学和认知科学的前期研究基础上开发了一个包含 16,800 个提示的数据集,我们测试了各种减轻偏见的策略,并提出了一种使用大型语言模型来去偏置其自身提示的新方法。我们的分析提供了商业和开源模型中认知偏见存在及其影响的全面图片。我们证明了我们的自助去偏置方法能够有效减轻认知偏见,而无需为每种偏见类型手动制作示例。
Feb, 2024
通过对八种流行的大型语言模型在三个临床病例描述数据集上进行严格评估和分析,我们发现这些模型在受保护群体之间存在各种不同程度的社会偏差,而大小模型并不一定比通用模型更具偏见,经过设计决策的提示方式对社会偏差也有影响,研究呼吁对在临床决策支持应用中使用的大型语言模型进行进一步评估、审查和改进。
Apr, 2024
通过大型语言模型 (LLMs) 在多智能体框架中的运用,模拟临床决策过程并评估其改善诊断准确性的有效性,以应对临床决策中的认知偏差。
Jan, 2024
大型语言模型的进展展示了在各个应用领域的强大能力,包括心理健康分析。然而,现有的研究着重于预测性能,对公平性这一关键问题的探讨不足,给弱势人群带来了重大风险。我们通过针对八个不同的心理健康数据集,使用十种不同的提示方法,系统地评估了七个社会因素的偏见。结果表明,GPT-4 在性能和公平性方面实现了最佳的平衡,尽管在某些情况下仍落后于领域特定模型如 MentalRoBERTa。此外,我们针对公平性进行调整的提示方法可以有效减轻在心理健康预测中的偏见,凸显了在该领域进行公平分析的巨大潜力。
Jun, 2024
利用大型语言模型(LLMs)协助和纠正医生在医疗决策任务中的潜力进行探索,研究评估了几个 LLMs,包括 Meditron、Llama2 和 Mistral,以分析这些模型在不同场景下与医生有效互动的能力,并认为提示设计显著影响 LLMs 的下游准确性,LLMs 能够为医生提供有价值的反馈,挑战错误诊断,促进更准确的决策,同时还揭示了确保 LLM 生成的建议相关和有用的挑战,强调了进一步研究的需求。
Mar, 2024
通过模拟人类认知过程,BooksMed 使用大型语言模型(LLM)构建的框架,利用 GRADE 框架来提供基于证据的可靠答复,同时引入 ExpertMedQA 来评估 LLM 的性能,从而成为在临床决策中提供可靠和基于证据的答案的有用工具。
Oct, 2023
利用模拟医学考题的方法评估大型语言模型在医学领域的表现,发现传统的多项选择题评估方法可能无法准确测量其临床知识和推理能力,而更强调其模式识别技能。这项研究强调了需要更强劲的评估方法,以更好地评估大型语言模型在医学背景下的真实能力。
Jun, 2024
本研究评估了 GPT-3.5、GPT-4、Falcon 和 LLaMA 2 等最先进的大型语言模型在从出院摘要中识别患有轻度认知障碍(MCI)的患者的能力,并检查模型响应与其推理不一致的情况。研究结果强调了提示工程的重要性和对 GPT-4 中观察到的意外推理 - 响应不一致性进一步探索的需求,突显了将大型语言模型应用于医疗诊断的潜力,前提是在方法论上取得进步以确保人工智能生成的输出准确性和临床连贯性,从而提高大型语言模型在医疗决策中的可信度。
Dec, 2023
该研究提出了一种包括多步骤评估法的大型语言模型(LLM)评估范例,通过结构化的交互方式进行多模态 LLM 评估,并通过获取交互数据进行后续领域特定的分析,以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM,使用多模态多项选择题评估其在病理学领域的医学诊断准确性,结果表明其约有 84% 的正确诊断,同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于 GPT-4-Vision-Preview,还可应用于评估其他 LLMs 的准确性和实用性,以进一步优化其应用。
Jan, 2024
提出了一种采用自适应测试框架评估大型语言模型的方法,该方法可以根据模型的表现动态调整测试问题的难度,从而更准确地估计模型的能力,使得大型语言模型可以与人类进行比较,同时该方法可以使用更少的问题,从而更加高效。对 ChatGPT 等 6 种模型进行了细粒度诊断,并通过不同测试发现 GPT4 模型在主题知识、数理推理和编程方面表现优异,可以达到中等水平学生的认知能力水平。
Jun, 2023