一个揭示大型语言模型中健康公平伤害和偏见的工具箱
大型语言模型在医疗领域的利用引发了劲头和担忧,本文概述了目前开发的大型语言模型在医疗保健方面的能力,并阐明它们的发展过程,旨在提供从传统预训练语言模型(PLMs)到大型语言模型(LLMs)的发展路线图的概览。总的来说,我们认为正在进行一次重大的范式转变,从PLMs过渡到LLMs,这包括从辨别式人工智能方法向生成式人工智能方法的转变,以及从以模型为中心的方法论向以数据为中心的方法论的转变。
Oct, 2023
利用大型语言模型和领域特定的SciBERT对健康差异进行研究,发现它们在提供医疗服务、改善健康沟通和减少健康差距方面具有潜力,但在数据多样性、隐私问题和医疗服务提供者与技术专家之间的合作等方面存在挑战。
Oct, 2023
这项研究开发了BiasMedQA作为一种新的基准测试方法,评估大型语言模型在医学任务中受认知偏差影响的程度,并发现GPT-4对偏差具有较强的韧性,而Llama 2 70B-chat和PMC Llama 13B则受偏差影响较大,这凸显了在医学语言模型开发中需致力于偏差缓解,以实现在医疗保健领域更安全、可靠的应用。
Feb, 2024
通过对八种流行的大型语言模型在三个临床病例描述数据集上进行严格评估和分析,我们发现这些模型在受保护群体之间存在各种不同程度的社会偏差,而大小模型并不一定比通用模型更具偏见,经过设计决策的提示方式对社会偏差也有影响,研究呼吁对在临床决策支持应用中使用的大型语言模型进行进一步评估、审查和改进。
Apr, 2024
介绍了Cross-Care,这是第一个专门评估LLMs中存在的倾向和现实世界知识的基准框架,重点关注不同人群中疾病患病率的表征,并揭示了在预训练文本中嵌入的人口统计偏差如何影响LLMs的输出。结果显示,LLMs对疾病患病率的表征与不同人群实际患病率之间存在重大不一致,存在偏倚传播和缺乏实际世界基础的风险。
May, 2024
大型语言模型的进展展示了在各个应用领域的强大能力,包括心理健康分析。然而,现有的研究着重于预测性能,对公平性这一关键问题的探讨不足,给弱势人群带来了重大风险。我们通过针对八个不同的心理健康数据集,使用十种不同的提示方法,系统地评估了七个社会因素的偏见。结果表明,GPT-4在性能和公平性方面实现了最佳的平衡,尽管在某些情况下仍落后于领域特定模型如MentalRoBERTa。此外,我们针对公平性进行调整的提示方法可以有效减轻在心理健康预测中的偏见,凸显了在该领域进行公平分析的巨大潜力。
Jun, 2024
本研究关注医疗数据中的偏见检测,以应对由偏见数据训练模型导致的有害预测。作者提出使用词义消歧模型来提升数据集质量,通过去除不相关句子,从而提高健康相关应用的公正性,发现细调后的BERT模型在各项评估指标上表现良好。此研究有望改善患者护理,并缩小健康结果差距。
Sep, 2024
本研究探讨了大型语言模型在医疗应用中存在的显著不平等现象,尤其是在特定种族、性别和社会弱势群体中的使用差异。论文提出并评估了一种新颖的框架EquityGuard,旨在检测和缓解大型语言模型在医疗应用中的偏见,从而改善医疗结果并促进不同人群之间的公平性。
Oct, 2024
本研究解决了大型语言模型在医疗应用中可能加剧健康不平等的问题。我们提出了一个新框架——EquityGuard,旨在识别并减轻健康不平等风险,评估结果表明该框架能有效促进不同群体的公平结果。
Oct, 2024
本研究针对大型语言模型(LLMs)在临床决策中的偏见问题,尤其是性别和种族偏见,进行评估与缓解。我们引入了一个创新的反事实患者变异(CPV)数据集,建立了一种偏见评估框架,研究发现缓解性别偏见可能会引入种族偏见,强调了评估MCQ回答和解释过程的重要性。
Oct, 2024