对人类和模型的错误衡量：评估大型语言模型中的分配伤害

Aug, 2024

对人类和模型的错误衡量：评估大型语言模型中的分配伤害

The Mismeasure of Man and Models: Evaluating Allocational Harms in Large Language Models

Hannah Chen, Yangfeng Ji, David Evans

TL;DR本研究探讨了在高风险决策应用中，大型语言模型（LLMs）可能存在的偏见导致的分配伤害，通过提出Rank-Allocational-Based Bias Index (RABBI)度量，填补了现有偏见测量方法与实际决策使用之间的空白。研究表明，RABBI能有效捕捉分配结果中的群体差异，而常用的偏见指标则表现不佳，这强调了在资源有限的情况下对模型使用情境的重视。

Abstract

Large Language Models (LLMs) are now being considered and even deployed for applications that support high-stakes decision-making, such as recruitment and clinical decisions. While several methods have been proposed for measuring bias, there remains a gap between predictions, which are

发现论文，激发创造

语言模型的新发现：在自然语言推理数据和模型中的鲁棒性-偏差互动

本文提出了一种利用语言模型生成词汇变体、对抗性过滤和人工验证相结合的方法扩展现有的 Bias Benchmark for NLI (BBNLI) 测评数据集为 BBNLI-next，并介绍了能够区分模型误差类型的倾向度（bias）测量标准，说明了现有偏见分数存在的不足并提出了考虑到促进 / 反对刻板印象倾向和模型脆弱性的倾向度测量标准。

May, 2023

大型语言模型作为评估者的认知偏差基准测试

大型语言模型（LLMs）作为通过简单提示和上下文学习的自动评估器已被证明有效。本研究汇集了四个不同规模范围的15个LLMs，并通过系统之间的偏好排序来评估它们的输出响应，如System Star优于System Square。我们引入了LLMs作为评估器的认知偏差基准（CoBBLEr）来评估排序输出的质量，该基准用于衡量LLM评估输出中的六种不同的认知偏差，如自我中心偏差，其中模型倾向于高度评估其自身的输出。我们发现LLMs是有偏差的文本质量评估器，在评估中展示出强烈的偏见基准迹象（在所有模型中的比较平均为40%），这对其作为评估器的稳健性提出了质疑。此外，我们检查了人类和机器偏好之间的相关性，并计算出平均Rank-Biased Overlap（RBO）得分为49.6%，表明机器偏好与人类不一致。根据我们的发现，LLMs可能仍然不能用于与人类偏好对齐的自动注释。我们的项目页面位于此https URL。

Sep, 2023

ROBBIE: 大规模生成语言模型的稳健偏见评估

评估和改善大型语言模型（LLMs）的公平性，通过使用不同的提示性数据集来测量社会偏见，对比模型之间的偏差和毒性度量，并研究偏差/毒性降低技术的效果。我们开源分析代码以鼓励测量未来LLMs偏见的广泛研究。

Nov, 2023

GPTBIAS：评估大型语言模型中的偏差的综合框架

我们提出了一个名为GPTBIAS的偏见评估框架，它利用LLMs的高性能来评估模型的偏见，提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息，通过广泛的实验证明了该评估框架的有效性和可用性。

Dec, 2023

在大型语言模型推理中平衡理性偏差和认知偏见：并非所有偏见均不好

通过研究大型语言模型（LLMs）的决策过程中的偏见，本研究揭示了不同偏见在决策过程中的微妙作用，并发现合适的平衡可以提高模型性能、改善决策准确性。我们引入了启发式调节和弃权选项的概念，并通过我们的研究结果表明，恰当缩放的偏见检查能够使LLMs的决策更符合人类的推理，提高其可靠性和值得信赖性，从而为未来的改进提供了新的策略。

Jun, 2024

大型语言模型中的偏见解读：一种基于特征的方法

大型语言模型（LLMs）具有卓越的性能，在各种自然语言处理（NLP）任务中表现出色。本文通过一种新颖的基于特征的分析方法研究了LLMs内部偏见的传播。我们的发现揭示了LLMs中偏见的复杂性质并强调了定制的去偏方法的必要性，为有效缓解偏见机制和途径提供了更深入的理解。

Jun, 2024

CLIMB：大规模语言模型中的临床偏见基准

通过引入CLIMB（Clinical Bias in Large Language Models的衡量方法）的综合评估，揭示了大型语言模型（LLMs）在临床决策中普遍存在的内隐和外在偏见，并强调了减轻临床偏见的重要性和未来评估LLMs临床偏见的新标准。

Jul, 2024

大型语言模型使用案例中评估偏见和公平性的可执行框架

该研究旨在为从业者提供技术指南，以评估大型语言模型（LLMs）使用情况中的偏见和公平风险。研究通过分类LLM偏见和公平风险，并形式化定义各种评估指标来提供决策框架，以确定特定LLM使用情况下应使用哪些指标。

Jul, 2024

将模型评估与人类偏好对齐：减轻语言模型评估中的词汇计数偏差

使用SLAM展示，在设备上的小型语言模型是与基于API的大型语言模型（如OpenAI的GPT-4）相比，一种可行且成本效益高的替代方案，具有可比的性能和稳定性。这份后续研究详细探讨了如何通过解决偏向高标记数的偏差，来调整LLM评估器与人类评估的偏好之间的差异问题。通过采用贝叶斯统计和t检验来量化此偏差，并开发出重新校准GPTScorer的过程，我们的研究结果在多个应用案例中，显著改进了重新校准的LLM评估器与人类评估之间的斯皮尔曼等级相关分数，例如，在推荐系统的案例中，从-27.27提高到44.55。这些结果强调了在自动化评估中考虑偏差的重要性，以确保公正准确的模型评估。重新校准过程提高了自动评估器的可靠性，从而产生与人类价值观和期望相一致的更好的AI模型。该研究为未来的偏差校正研究提供了强有力的方法，并强调了开发与人类一致的AI评估系统的可行性和益处。

Jul, 2024

解码偏见：自动化方法与大型语言模型评判者对性别偏见检测

本研究针对大型语言模型（LLMs）在偏见检测方面的缺乏标准和成本高昂问题，提出了一种自动生成对抗性提示的创新方法，以揭示模型的偏见反应。研究表明，所提出的LLM作为评判者的评估指标与人类评判一致，显示出其在偏见评估中的潜力和重要性。

Aug, 2024