一个揭示大型语言模型中健康公平伤害和偏见的工具箱
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
大型语言模型的进展展示了在各个应用领域的强大能力,包括心理健康分析。然而,现有的研究着重于预测性能,对公平性这一关键问题的探讨不足,给弱势人群带来了重大风险。我们通过针对八个不同的心理健康数据集,使用十种不同的提示方法,系统地评估了七个社会因素的偏见。结果表明,GPT-4 在性能和公平性方面实现了最佳的平衡,尽管在某些情况下仍落后于领域特定模型如 MentalRoBERTa。此外,我们针对公平性进行调整的提示方法可以有效减轻在心理健康预测中的偏见,凸显了在该领域进行公平分析的巨大潜力。
Jun, 2024
通过对八种流行的大型语言模型在三个临床病例描述数据集上进行严格评估和分析,我们发现这些模型在受保护群体之间存在各种不同程度的社会偏差,而大小模型并不一定比通用模型更具偏见,经过设计决策的提示方式对社会偏差也有影响,研究呼吁对在临床决策支持应用中使用的大型语言模型进行进一步评估、审查和改进。
Apr, 2024
大语言模型带来了强大的性能和发展前景,并广泛应用于现实世界。然而,这些模型可能从未经处理的训练数据中捕捉到社会偏见,并将其传播到下游任务。本文全面回顾了关于大语言模型中的公平性的相关研究,介绍了中等规模的模型和大规模的模型分别从内在偏见和外在偏见的角度引入了评估指标和去偏方法,并讨论了公平性发展中的挑战和未来方向。
Aug, 2023
大型语言模型在医疗领域的利用引发了劲头和担忧,本文概述了目前开发的大型语言模型在医疗保健方面的能力,并阐明它们的发展过程,旨在提供从传统预训练语言模型(PLMs)到大型语言模型(LLMs)的发展路线图的概览。总的来说,我们认为正在进行一次重大的范式转变,从 PLMs 过渡到 LLMs,这包括从辨别式人工智能方法向生成式人工智能方法的转变,以及从以模型为中心的方法论向以数据为中心的方法论的转变。
Oct, 2023
评估和改善大型语言模型(LLMs)的公平性,通过使用不同的提示性数据集来测量社会偏见,对比模型之间的偏差和毒性度量,并研究偏差 / 毒性降低技术的效果。我们开源分析代码以鼓励测量未来 LLMs 偏见的广泛研究。
Nov, 2023
通过探索新的方法来检测大型语言模型中的潜在偏见,本研究聚焦于不确定性量化和可解释人工智能方法,旨在提高模型决策的透明性,以识别和理解不明显的偏见,从而为更加公平和透明的人工智能系统的发展做出贡献。
Apr, 2024
这项研究开发了 BiasMedQA 作为一种新的基准测试方法,评估大型语言模型在医学任务中受认知偏差影响的程度,并发现 GPT-4 对偏差具有较强的韧性,而 Llama 2 70B-chat 和 PMC Llama 13B 则受偏差影响较大,这凸显了在医学语言模型开发中需致力于偏差缓解,以实现在医疗保健领域更安全、可靠的应用。
Feb, 2024
大型语言模型(LLMs)嵌入了复杂的偏见和刻板印象,可能导致有害的用户体验和社会后果,而模型本身通常没有意识到这一点。本文强调了为 LLMs 配备更好的自我反思和偏见识别机制的重要性。我们的实验表明,通过告知 LLMs 它们生成的内容不代表自己的观点,并对其偏见进行质疑,可以提高 LLMs 识别和解决偏见的能力。这种改进归因于 LLMs 的内部注意力机制和潜在的内部敏感性政策。基于这些发现,我们提出了一个减少 LLMs 输出偏见的新方法。该方法涉及将 LLMs 置于多角色情景中,扮演不同角色,在每个辩论循环的最后担任公正裁判的角色,以暴露偏见。采用排名评分机制来量化偏见水平,从而实现更精细的反思和更优质的输出。比较实验结果证实我们的方法在减少偏见方面优于现有方法,为追求更具伦理 AI 系统的努力作出了有价值的贡献。
Apr, 2024
通过引入人类知识进行自然语言干预,本研究探索了预训练语言模型的行为特征,以性别偏见为背景,通过问答评估了模型的一致性、偏见倾向、模型偏好和性别偏好切换,并提供了首个基于人类知识的大语言模型偏见评估数据集。
Dec, 2023