通过残障镜头审视 GPT-3 生成的开放式语言中的偏见
本文针对自然语言处理技术中社会态度的反映及其中的社会偏见问题展开研究,以两个不同实验为案例,说明训练数据本身的社会偏见对模型的影响。同时,讨论了关于残疾人的话题以及在相关文本中存在的不利偏见,并展示了大量相关证据。
May, 2020
大型语言模型的进展展示了在各个应用领域的强大能力,包括心理健康分析。然而,现有的研究着重于预测性能,对公平性这一关键问题的探讨不足,给弱势人群带来了重大风险。我们通过针对八个不同的心理健康数据集,使用十种不同的提示方法,系统地评估了七个社会因素的偏见。结果表明,GPT-4 在性能和公平性方面实现了最佳的平衡,尽管在某些情况下仍落后于领域特定模型如 MentalRoBERTa。此外,我们针对公平性进行调整的提示方法可以有效减轻在心理健康预测中的偏见,凸显了在该领域进行公平分析的巨大潜力。
Jun, 2024
为了提高语言模型的公正性,本文提出了多项定义并给出了新的测试和度量方式,旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明,该方法能够在文本生成中减少偏见同时保留重要的上下文信息。
Jun, 2021
本研究旨在有意地引入偏见到大型语言模型的响应中,以创建特定的互动媒体角色。我们探索了 Falcon-7b 等开源模型与 Open AI 的 GPT-4 模型之间的差异,并对两个系统的响应进行了一些量化比较。我们发现,GPT-4 的专家混合模型中的防护措施虽然在确保 AI 的整体对齐方面很有用,但在构建具有各种不寻常观点的角色时却具有负面影响。本研究旨在为未来探索大型语言模型中的有意偏见奠定基础,以便这些实践可以应用于创意领域和新型媒体。
Nov, 2023
在解决偏见对边缘化人群(包括残疾人)的负面影响方面,我们通过履历审查研究,发现 GPT-4 在评估增强了与残疾相关的领导奖项、奖学金、专题演讲和会员的简历时存在偏见,并通过针对多样性、公平性与残疾正义原则来训练自定义 GPTs,量化地减少了这种偏见。我们还对 GPT-4 为其有偏决策辩解时所使用的直接和间接有能力主义类型进行了独特的定性分析,并提出了进一步偏见缓解工作的方向。此外,由于这些辩解可能源自包含人类表达的现实世界有偏见陈述的训练数据,我们的分析还建议了解决人类偏见的其他途径。
Jan, 2024
大型语言模型在医疗专业人员中具有潜力,但在训练过程中可能意外地继承偏见,可能会影响其在医学应用中的实用性。通过定性和定量分析,我们发现这些模型倾向于为白人群体投射更高的费用和较长的住院时间,并在具有更高生存率的具有挑战性的医疗场景中表现出乐观的态度。这些偏差在生成患者背景信息、将特定疾病与某种种族关联以及治疗建议的偏差等方面都有体现。我们的发现强调了未来研究在解决和减轻语言模型的偏见问题方面的关键需求,特别是关注关键的医疗应用,以确保公平和准确的结果对所有患者来说。
Jan, 2024
我们提出了一个名为 GPTBIAS 的偏见评估框架,它利用 LLMs 的高性能来评估模型的偏见,提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息,通过广泛的实验证明了该评估框架的有效性和可用性。
Dec, 2023
研究探讨了诊断 - 去偏见方法在减少侮辱和政治偏见等两种附加偏见方面的效力,为调查人工智能与人类互动的道德和社会影响不断努力做出贡献。
Nov, 2023
本文探讨大规模语言模型(如 ChatGPT)中固有偏见的挑战和风险,讨论其起源、伦理问题、缓解偏见的潜在机会、在虚拟助手、内容生成功能和聊天机器人中部署这些模型的意义以及如何鉴别、量化和缓解语言模型中的偏见,强调了需要跨学科的合作来开发更公正、透明和负责任的人工智能系统。
Apr, 2023