超越性能:量化和减轻 LLMs 中的标签偏差
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
我们介绍了 BiasBuster,这是一个旨在发现、评估和减轻大型语言模型中认知偏见的框架。通过在心理学和认知科学的前期研究基础上开发了一个包含 16,800 个提示的数据集,我们测试了各种减轻偏见的策略,并提出了一种使用大型语言模型来去偏置其自身提示的新方法。我们的分析提供了商业和开源模型中认知偏见存在及其影响的全面图片。我们证明了我们的自助去偏置方法能够有效减轻认知偏见,而无需为每种偏见类型手动制作示例。
Feb, 2024
大型语言模型(LLMs)可以产生展现社交偏见并支持刻板印象的回答。然而,传统的基准测试无法充分评估 LLM 偏见,因为它无法扩展到大量的提示集,并且没有提供保证。因此,我们提出了一种新的认证框架 QuaCer-B(Bias 的定量认证),它提供了在大量提示集下从目标 LLMs 获取无偏回答的形式保证。证书包括从分布中采样的包含敏感属性的任何提示集获得有偏回答的概率的高置信度上限。我们通过在给定分布中随机令牌序列、手动越狱的混合和 LLM 嵌入空间中的越狱的提示上对 LLM 的偏见进行证明。我们使用 QuaCer-B 对流行的 LLMs 进行认证,并呈现关于其偏见的新见解。
May, 2024
大型语言模型广泛用于自然语言生成任务的自动评估指标,然而,由于句子中的表面差异(如词序和句子结构),可能会导致语言模型的可能性有所偏差,本文研究了基于语言模型的评估器中可能存在的可能性偏见,并提出了缓解可能性偏见的方法,该方法利用高度偏倚的实例作为少样本示例进行上下文学习,实验证明我们测试的几个语言模型存在可能性偏见,而且我们提出的方法成功地缓解了这种偏见,并显著提高了评估性能(与人类评分的相关性)。
Feb, 2024
通过探索新的方法来检测大型语言模型中的潜在偏见,本研究聚焦于不确定性量化和可解释人工智能方法,旨在提高模型决策的透明性,以识别和理解不明显的偏见,从而为更加公平和透明的人工智能系统的发展做出贡献。
Apr, 2024
大语言模型带来了强大的性能和发展前景,并广泛应用于现实世界。然而,这些模型可能从未经处理的训练数据中捕捉到社会偏见,并将其传播到下游任务。本文全面回顾了关于大语言模型中的公平性的相关研究,介绍了中等规模的模型和大规模的模型分别从内在偏见和外在偏见的角度引入了评估指标和去偏方法,并讨论了公平性发展中的挑战和未来方向。
Aug, 2023
大型语言模型(LLMs)嵌入了复杂的偏见和刻板印象,可能导致有害的用户体验和社会后果,而模型本身通常没有意识到这一点。本文强调了为 LLMs 配备更好的自我反思和偏见识别机制的重要性。我们的实验表明,通过告知 LLMs 它们生成的内容不代表自己的观点,并对其偏见进行质疑,可以提高 LLMs 识别和解决偏见的能力。这种改进归因于 LLMs 的内部注意力机制和潜在的内部敏感性政策。基于这些发现,我们提出了一个减少 LLMs 输出偏见的新方法。该方法涉及将 LLMs 置于多角色情景中,扮演不同角色,在每个辩论循环的最后担任公正裁判的角色,以暴露偏见。采用排名评分机制来量化偏见水平,从而实现更精细的反思和更优质的输出。比较实验结果证实我们的方法在减少偏见方面优于现有方法,为追求更具伦理 AI 系统的努力作出了有价值的贡献。
Apr, 2024
一项研究发现,大型语言模型的非故意回应存在价值偏差,倾向于偏爱高价值选项,该偏差在不同领域的语言模型中都存在,并对相关应用场景选择起到影响。
Feb, 2024