解码偏见：自动化方法与大型语言模型评判者对性别偏见检测

Aug, 2024

解码偏见：自动化方法与大型语言模型评判者对性别偏见检测

Decoding Biases: Automated Methods and LLM Judges for Gender Bias Detection in Language Models

Shachi H Kumar, Saurav Sahay, Sahisnu Mazumder, Eda Okur, Ramesh Manuvinakurike...

TL;DR本研究针对大型语言模型（LLMs）在偏见检测方面的缺乏标准和成本高昂问题，提出了一种自动生成对抗性提示的创新方法，以揭示模型的偏见反应。研究表明，所提出的LLM作为评判者的评估指标与人类评判一致，显示出其在偏见评估中的潜力和重要性。

Abstract

Large Language Models (LLMs) have excelled at language understanding and generating human-level text. However, even with supervised training and human alignment, these LLMs are susceptible to adversarial attacks where malicious users can prompt the model to generate undesirable text. L

发现论文，激发创造

形式胜于内容：大型语言模型的评估偏见

在评估自然语言生成的过程中，使用大型语言模型 (LLMs) 作为人类评判的替代方法是一种最新的趋势。然而，本研究发现其评估结果存在偏见。为解决这一问题，提出了多维度独立评估系统 (Multi-Elo Rating System)，在提高 LLM 评估质量方面取得了显著成效，但对众包评估没有明显改善，需要进一步探索和改进。

Jul, 2023

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

大型语言模型作为评估者的认知偏差基准测试

大型语言模型（LLMs）作为通过简单提示和上下文学习的自动评估器已被证明有效。本研究汇集了四个不同规模范围的15个LLMs，并通过系统之间的偏好排序来评估它们的输出响应，如System Star优于System Square。我们引入了LLMs作为评估器的认知偏差基准（CoBBLEr）来评估排序输出的质量，该基准用于衡量LLM评估输出中的六种不同的认知偏差，如自我中心偏差，其中模型倾向于高度评估其自身的输出。我们发现LLMs是有偏差的文本质量评估器，在评估中展示出强烈的偏见基准迹象（在所有模型中的比较平均为40%），这对其作为评估器的稳健性提出了质疑。此外，我们检查了人类和机器偏好之间的相关性，并计算出平均Rank-Biased Overlap（RBO）得分为49.6%，表明机器偏好与人类不一致。根据我们的发现，LLMs可能仍然不能用于与人类偏好对齐的自动注释。我们的项目页面位于此https URL。

Sep, 2023

大型语言模型中的性别偏见煽动与缓解之学习

自动检测大型语言模型（如ChatGPT和GPT-4）潜在性别偏见的研究，提出了一种自动生成测试用例的方法，并通过这些测试用例来减轻模型偏见，从而实现更公正的回复。

Oct, 2023

ROBBIE: 大规模生成语言模型的稳健偏见评估

评估和改善大型语言模型（LLMs）的公平性，通过使用不同的提示性数据集来测量社会偏见，对比模型之间的偏差和毒性度量，并研究偏差/毒性降低技术的效果。我们开源分析代码以鼓励测量未来LLMs偏见的广泛研究。

Nov, 2023

GPTBIAS：评估大型语言模型中的偏差的综合框架

我们提出了一个名为GPTBIAS的偏见评估框架，它利用LLMs的高性能来评估模型的偏见，提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息，通过广泛的实验证明了该评估框架的有效性和可用性。

Dec, 2023

人类还是LLM作为法官？对判断偏见的研究

采用人类和大型语言模型作为评判者（即人类和LLM评判者）来评估现有LLM的性能已经引起了关注。然而，这种方法同时引入了人类和LLM评判者的潜在偏见，对评估结果的可靠性提出了质疑。本文提出了一种针对LLM和人类评判者的5种偏见的新框架。我们整理了一个包含142个样本的数据集，涉及修订后的布鲁姆分类法，并进行了数千次人类和LLM评估。结果表明，人类和LLM评判者在不同程度上都容易受到扰动，并且即使是最先进的评判者也存在相当大的偏见。我们进一步利用它们的弱点对LLM评判者进行了攻击。我们希望我们的工作能让社区意识到人类和LLM评判者在面对扰动时的脆弱性，以及开发健壮评估系统的紧迫性。

Feb, 2024

欺骗以启蒙：诱导LLMs自省以增强偏见检测和缓解

大型语言模型（LLMs）嵌入了复杂的偏见和刻板印象，可能导致有害的用户体验和社会后果，而模型本身通常没有意识到这一点。本文强调了为LLMs配备更好的自我反思和偏见识别机制的重要性。我们的实验表明，通过告知LLMs它们生成的内容不代表自己的观点，并对其偏见进行质疑，可以提高LLMs识别和解决偏见的能力。这种改进归因于LLMs的内部注意力机制和潜在的内部敏感性政策。基于这些发现，我们提出了一个减少LLMs输出偏见的新方法。该方法涉及将LLMs置于多角色情景中，扮演不同角色，在每个辩论循环的最后担任公正裁判的角色，以暴露偏见。采用排名评分机制来量化偏见水平，从而实现更精细的反思和更优质的输出。比较实验结果证实我们的方法在减少偏见方面优于现有方法，为追求更具伦理AI系统的努力作出了有价值的贡献。

Apr, 2024

大型语言模型中的偏见解读：一种基于特征的方法

大型语言模型（LLMs）具有卓越的性能，在各种自然语言处理（NLP）任务中表现出色。本文通过一种新颖的基于特征的分析方法研究了LLMs内部偏见的传播。我们的发现揭示了LLMs中偏见的复杂性质并强调了定制的去偏方法的必要性，为有效缓解偏见机制和途径提供了更深入的理解。

Jun, 2024

大规模语言模型真的没有偏见吗？通过越狱提示评估偏见诱导的对抗鲁棒性

该研究探讨了最近的大型语言模型中存在的偏见，分析其对公正性和可靠性的影响，并研究了如何利用已知的提示工程技术来揭示大型语言模型的隐藏偏见，并对其进行了针对偏见引诱而设计的越狱提示的对抗强度测试。通过对不同规模的最广泛使用的大型语言模型进行广泛实验，证实了尽管这些模型具有先进的能力和复杂的对齐过程，但仍然可以操纵它们产生有偏见或不适当的回应，强调了加强缓解技术以解决这些安全问题的重要性，朝着更可持续和包容的人工智能发展。

Jul, 2024