偏见中和框架:用偏见智商(BiQ)衡量大型语言模型中的公平性
大型语言模型偏差指数(LLMBI)通过量化和解决大型语言模型(如 GPT-4)中固有的偏见,为多元领域中越来越普遍和重要的大型语言模型引入了一种创新的度量方法。该研究构建了 LLMBI,通过包括但不限于年龄、性别和种族偏见在内的多个偏见维度的复合评分系统,系统地衡量和缓解可能影响模型响应的偏见。通过收集和注释大型语言模型的响应,应用先进的自然语言处理(NLP)技术进行偏见检测,并通过专门设计的数学公式计算 LLMBI 得分,该公式综合了多个偏见维度的加权平均、数据集多样性不足的惩罚和情感偏见的校正。实证分析使用 OpenAI 的 API 响应进行,在代表性的偏见检测方法中采用了先进的情感分析。研究发现,虽然 LLMs 在文本生成方面展示了令人印象深刻的能力,但在不同维度上存在不同程度的偏见。LLMBI 为比较不同模型和不同时期的偏见提供了量化度量,为系统工程师、研究人员和监管机构提供了重要工具,以提高 LLMs 的公平性和可靠性。它突显了 LLMs 在模仿无偏人类响应方面的潜力,并强调了持续监测和校准此类模型以与不断发展的社会规范和道德标准保持一致的必要性。
Dec, 2023
大型语言模型(LLMs)可以产生展现社交偏见并支持刻板印象的回答。然而,传统的基准测试无法充分评估 LLM 偏见,因为它无法扩展到大量的提示集,并且没有提供保证。因此,我们提出了一种新的认证框架 QuaCer-B(Bias 的定量认证),它提供了在大量提示集下从目标 LLMs 获取无偏回答的形式保证。证书包括从分布中采样的包含敏感属性的任何提示集获得有偏回答的概率的高置信度上限。我们通过在给定分布中随机令牌序列、手动越狱的混合和 LLM 嵌入空间中的越狱的提示上对 LLM 的偏见进行证明。我们使用 QuaCer-B 对流行的 LLMs 进行认证,并呈现关于其偏见的新见解。
May, 2024
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
我们提出了一个名为 GPTBIAS 的偏见评估框架,它利用 LLMs 的高性能来评估模型的偏见,提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息,通过广泛的实验证明了该评估框架的有效性和可用性。
Dec, 2023
通过探索新的方法来检测大型语言模型中的潜在偏见,本研究聚焦于不确定性量化和可解释人工智能方法,旨在提高模型决策的透明性,以识别和理解不明显的偏见,从而为更加公平和透明的人工智能系统的发展做出贡献。
Apr, 2024
本文提出了一种利用语言模型生成词汇变体、对抗性过滤和人工验证相结合的方法扩展现有的 Bias Benchmark for NLI (BBNLI) 测评数据集为 BBNLI-next,并介绍了能够区分模型误差类型的倾向度(bias)测量标准,说明了现有偏见分数存在的不足并提出了考虑到促进 / 反对刻板印象倾向和模型脆弱性的倾向度测量标准。
May, 2023
大语言模型带来了强大的性能和发展前景,并广泛应用于现实世界。然而,这些模型可能从未经处理的训练数据中捕捉到社会偏见,并将其传播到下游任务。本文全面回顾了关于大语言模型中的公平性的相关研究,介绍了中等规模的模型和大规模的模型分别从内在偏见和外在偏见的角度引入了评估指标和去偏方法,并讨论了公平性发展中的挑战和未来方向。
Aug, 2023
本研究提出了一种新的框架,用于探索语言模型中的社会偏见,通过采集探索数据集和利用一种新的公平性评分方法,发现语言模型中的偏见更加复杂,并揭示不同宗教身份导致各种模型中最明显的不平等处理。
Nov, 2023
人工智能系统中解决公平性和偏差的重要性不可低估。本文填补了大型多模态模型在公平性和偏差研究方面相对于大型语言模型的缺口,提供了 50 个数据集和模型的示例以及影响它们的挑战;我们除了文献中已知的内在偏差和外在偏差两种方式外,还确定了一种新的偏差量化方法(preuse);我们批判性地讨论了研究人员面对这些挑战时采取的各种方式。我们的方法使用了两个稍有不同的 Google Scholar 搜索词,结果显示出 “大型多模态模型中公平性和偏差” 的搜索词的结果为 33,400 个链接,“大型语言模型中公平性和偏差” 的搜索词的结果为 538,000 个链接。我们相信这项工作有助于填补此领域的研究空白,并向研究人员和其他相关者提供处理多模态人工智能中公平性和偏差问题的见解。
Jun, 2024
通过引入 VLBiasBench 数据集和进行广泛的评估,我们对大型视觉语言模型中的偏见进行了全面研究,并揭示了一些新的见解。
Jun, 2024