通过残障镜头审视 GPT-3 生成的开放式语言中的偏见

IJCAIJun, 2022

通过残障镜头审视 GPT-3 生成的开放式语言中的偏见

A Disability Lens towards Biases in GPT-3 Generated Open-Ended Languages

Akhter Al Amin, Kazi Sinthia Kabir

TL;DR研究发现最近的语言模型在数字产品中越来越普及，但是人们担心这些模型采用的自然语言会有偏见，影响可用性。为了提高公正性，我们通过一种障碍问卷测量来识别 GPT-3 模型生成的文本是否具有偏见和公平性。

Abstract

language models (LM) are becoming prevalent in many language-based application spaces globally. Although these LMs are improving our day-to-day interactions with digital products, concerns remain whether open-ended languages or text generated from these models reveal any →

language models biases fairness gpt-3 disability

发现论文，激发创造

自然语言处理模型中的社会偏见作为残疾人的障碍

本文针对自然语言处理技术中社会态度的反映及其中的社会偏见问题展开研究，以两个不同实验为案例，说明训练数据本身的社会偏见对模型的影响。同时，讨论了关于残疾人的话题以及在相关文本中存在的不利偏见，并展示了大量相关证据。

May, 2020

自由放任的危害：生成式语言模型中的算法偏差

通过开放式提示，我们发现模型产生的文本在描绘边缘群体的身份时存在错误、隐含和刻板印象的问题，这些问题可能导致心理伤害和认知能力下降。

Apr, 2024

利用大型语言模型揭示和缓解心理健康分析中的偏见

大型语言模型的进展展示了在各个应用领域的强大能力，包括心理健康分析。然而，现有的研究着重于预测性能，对公平性这一关键问题的探讨不足，给弱势人群带来了重大风险。我们通过针对八个不同的心理健康数据集，使用十种不同的提示方法，系统地评估了七个社会因素的偏见。结果表明，GPT-4 在性能和公平性方面实现了最佳的平衡，尽管在某些情况下仍落后于领域特定模型如 MentalRoBERTa。此外，我们针对公平性进行调整的提示方法可以有效减轻在心理健康预测中的偏见，凸显了在该领域进行公平分析的巨大潜力。

Jun, 2024

探索并缓解语言模型中的社会偏见

为了提高语言模型的公正性，本文提出了多项定义并给出了新的测试和度量方式，旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明，该方法能够在文本生成中减少偏见同时保留重要的上下文信息。

Jun, 2021

LLM 响应中的有意偏见

本研究旨在有意地引入偏见到大型语言模型的响应中，以创建特定的互动媒体角色。我们探索了 Falcon-7b 等开源模型与 Open AI 的 GPT-4 模型之间的差异，并对两个系统的响应进行了一些量化比较。我们发现，GPT-4 的专家混合模型中的防护措施虽然在确保 AI 的整体对齐方面很有用，但在构建具有各种不寻常观点的角色时却具有负面影响。本研究旨在为未来探索大型语言模型中的有意偏见奠定基础，以便这些实践可以应用于创意领域和新型媒体。

Nov, 2023

识别和改进基于 GAI 的简历筛选中的身份偏见

在解决偏见对边缘化人群（包括残疾人）的负面影响方面，我们通过履历审查研究，发现 GPT-4 在评估增强了与残疾相关的领导奖项、奖学金、专题演讲和会员的简历时存在偏见，并通过针对多样性、公平性与残疾正义原则来训练自定义 GPTs，量化地减少了这种偏见。我们还对 GPT-4 为其有偏决策辩解时所使用的直接和间接有能力主义类型进行了独特的定性分析，并提出了进一步偏见缓解工作的方向。此外，由于这些辩解可能源自包含人类表达的现实世界有偏见陈述的训练数据，我们的分析还建议了解决人类偏见的其他途径。

Jan, 2024

揭示和量化大型语言模型在医学报告生成中的种族偏见

大型语言模型在医疗专业人员中具有潜力，但在训练过程中可能意外地继承偏见，可能会影响其在医学应用中的实用性。通过定性和定量分析，我们发现这些模型倾向于为白人群体投射更高的费用和较长的住院时间，并在具有更高生存率的具有挑战性的医疗场景中表现出乐观的态度。这些偏差在生成患者背景信息、将特定疾病与某种种族关联以及治疗建议的偏差等方面都有体现。我们的发现强调了未来研究在解决和减轻语言模型的偏见问题方面的关键需求，特别是关注关键的医疗应用，以确保公平和准确的结果对所有患者来说。

Jan, 2024

GPTBIAS：评估大型语言模型中的偏差的综合框架

我们提出了一个名为 GPTBIAS 的偏见评估框架，它利用 LLMs 的高性能来评估模型的偏见，提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息，通过广泛的实验证明了该评估框架的有效性和可用性。

Dec, 2023

诊断和去偏 GPT2 中基于语料库的政治偏见和侮辱

研究探讨了诊断 - 去偏见方法在减少侮辱和政治偏见等两种附加偏见方面的效力，为调查人工智能与人类互动的道德和社会影响不断努力做出贡献。

Nov, 2023

ChatGPT 的偏见是否应存在？大型语言模型中存在的偏见挑战和风险

本文探讨大规模语言模型（如 ChatGPT）中固有偏见的挑战和风险，讨论其起源、伦理问题、缓解偏见的潜在机会、在虚拟助手、内容生成功能和聊天机器人中部署这些模型的意义以及如何鉴别、量化和缓解语言模型中的偏见，强调了需要跨学科的合作来开发更公正、透明和负责任的人工智能系统。

Apr, 2023