减缓大型语言模型加剧健康不平等风险
利用大型语言模型和领域特定的SciBERT对健康差异进行研究,发现它们在提供医疗服务、改善健康沟通和减少健康差距方面具有潜力,但在数据多样性、隐私问题和医疗服务提供者与技术专家之间的合作等方面存在挑战。
Oct, 2023
大型语言模型在医疗专业人员中具有潜力,但在训练过程中可能意外地继承偏见,可能会影响其在医学应用中的实用性。通过定性和定量分析,我们发现这些模型倾向于为白人群体投射更高的费用和较长的住院时间,并在具有更高生存率的具有挑战性的医疗场景中表现出乐观的态度。这些偏差在生成患者背景信息、将特定疾病与某种种族关联以及治疗建议的偏差等方面都有体现。我们的发现强调了未来研究在解决和减轻语言模型的偏见问题方面的关键需求,特别是关注关键的医疗应用,以确保公平和准确的结果对所有患者来说。
Jan, 2024
通过对八种流行的大型语言模型在三个临床病例描述数据集上进行严格评估和分析,我们发现这些模型在受保护群体之间存在各种不同程度的社会偏差,而大小模型并不一定比通用模型更具偏见,经过设计决策的提示方式对社会偏差也有影响,研究呼吁对在临床决策支持应用中使用的大型语言模型进行进一步评估、审查和改进。
Apr, 2024
介绍了Cross-Care,这是第一个专门评估LLMs中存在的倾向和现实世界知识的基准框架,重点关注不同人群中疾病患病率的表征,并揭示了在预训练文本中嵌入的人口统计偏差如何影响LLMs的输出。结果显示,LLMs对疾病患病率的表征与不同人群实际患病率之间存在重大不一致,存在偏倚传播和缺乏实际世界基础的风险。
May, 2024
综述医疗大型自然语言模型(Med-LLM)的进化历史、技术、应用以及对医疗保健的影响,涵盖临床决策支持、报告生成、医学教育等方面,探索其潜力和限制,并讨论公平性、责任感、隐私保护和鲁棒性等挑战,展望未来的发展方向。
Jun, 2024
大型语言模型的进展展示了在各个应用领域的强大能力,包括心理健康分析。然而,现有的研究着重于预测性能,对公平性这一关键问题的探讨不足,给弱势人群带来了重大风险。我们通过针对八个不同的心理健康数据集,使用十种不同的提示方法,系统地评估了七个社会因素的偏见。结果表明,GPT-4在性能和公平性方面实现了最佳的平衡,尽管在某些情况下仍落后于领域特定模型如MentalRoBERTa。此外,我们针对公平性进行调整的提示方法可以有效减轻在心理健康预测中的偏见,凸显了在该领域进行公平分析的巨大潜力。
Jun, 2024
大规模语言模型在医疗保健领域的部署展示了提升临床决策、行政效率和患者成果的巨大潜力。然而,这些模型在开发和应用中存在多样性群体的代表不足,会导致不公平的医疗保健服务。本文通过对2021年1月1日至2024年6月16日期间的PubMed和Dimensions的元数据进行分析,包括作者机构、国家和资金来源,评估了在医疗保健领域的LLM研究的多样性。我们的发现强调了性别和地理差异的重要性,男性作者占主导地位,贡献主要来自高收入国家 (HICs)。我们引入了基于基尼不纯度的新颖期刊多样性指数来衡量科学出版物的包容性。我们的研究结果强调了加强代表性的必要性,以确保在医疗保健中公平应用LLMs。我们提出了行动策略来增强人工智能研究的多样性和包容性,以实现更具包容性和公平性的医疗创新未来。
Jun, 2024
本研究解决了大型语言模型在医疗诊断中可能存在的人口统计学偏差问题。我们提出了一种新颖的基准DiversityMedQA,通过对医学考试问题进行扰动,评估不同患者群体中模型回答的差异性。研究发现,模型在不同人口统计条件下的表现存在显著差异,为评估和减少医疗诊断中的人口偏差提供了资源。
Sep, 2024
本研究探讨了大型语言模型在医疗应用中存在的显著不平等现象,尤其是在特定种族、性别和社会弱势群体中的使用差异。论文提出并评估了一种新颖的框架EquityGuard,旨在检测和缓解大型语言模型在医疗应用中的偏见,从而改善医疗结果并促进不同人群之间的公平性。
Oct, 2024