对人类和模型的错误衡量:评估大型语言模型中的分配伤害
本文提出了一种利用语言模型生成词汇变体、对抗性过滤和人工验证相结合的方法扩展现有的 Bias Benchmark for NLI (BBNLI) 测评数据集为 BBNLI-next,并介绍了能够区分模型误差类型的倾向度(bias)测量标准,说明了现有偏见分数存在的不足并提出了考虑到促进 / 反对刻板印象倾向和模型脆弱性的倾向度测量标准。
May, 2023
大型语言模型(LLMs)作为通过简单提示和上下文学习的自动评估器已被证明有效。本研究汇集了四个不同规模范围的15个LLMs,并通过系统之间的偏好排序来评估它们的输出响应,如System Star优于System Square。我们引入了LLMs作为评估器的认知偏差基准(CoBBLEr)来评估排序输出的质量,该基准用于衡量LLM评估输出中的六种不同的认知偏差,如自我中心偏差,其中模型倾向于高度评估其自身的输出。我们发现LLMs是有偏差的文本质量评估器,在评估中展示出强烈的偏见基准迹象(在所有模型中的比较平均为40%),这对其作为评估器的稳健性提出了质疑。此外,我们检查了人类和机器偏好之间的相关性,并计算出平均Rank-Biased Overlap(RBO)得分为49.6%,表明机器偏好与人类不一致。根据我们的发现,LLMs可能仍然不能用于与人类偏好对齐的自动注释。我们的项目页面位于此https URL。
Sep, 2023
评估和改善大型语言模型(LLMs)的公平性,通过使用不同的提示性数据集来测量社会偏见,对比模型之间的偏差和毒性度量,并研究偏差/毒性降低技术的效果。我们开源分析代码以鼓励测量未来LLMs偏见的广泛研究。
Nov, 2023
我们提出了一个名为GPTBIAS的偏见评估框架,它利用LLMs的高性能来评估模型的偏见,提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息,通过广泛的实验证明了该评估框架的有效性和可用性。
Dec, 2023
通过研究大型语言模型(LLMs)的决策过程中的偏见,本研究揭示了不同偏见在决策过程中的微妙作用,并发现合适的平衡可以提高模型性能、改善决策准确性。我们引入了启发式调节和弃权选项的概念,并通过我们的研究结果表明,恰当缩放的偏见检查能够使LLMs的决策更符合人类的推理,提高其可靠性和值得信赖性,从而为未来的改进提供了新的策略。
Jun, 2024
大型语言模型(LLMs)具有卓越的性能,在各种自然语言处理(NLP)任务中表现出色。本文通过一种新颖的基于特征的分析方法研究了LLMs内部偏见的传播。我们的发现揭示了LLMs中偏见的复杂性质并强调了定制的去偏方法的必要性,为有效缓解偏见机制和途径提供了更深入的理解。
Jun, 2024
通过引入CLIMB(Clinical Bias in Large Language Models的衡量方法)的综合评估,揭示了大型语言模型(LLMs)在临床决策中普遍存在的内隐和外在偏见,并强调了减轻临床偏见的重要性和未来评估LLMs临床偏见的新标准。
Jul, 2024
该研究旨在为从业者提供技术指南,以评估大型语言模型(LLMs)使用情况中的偏见和公平风险。研究通过分类LLM偏见和公平风险,并形式化定义各种评估指标来提供决策框架,以确定特定LLM使用情况下应使用哪些指标。
Jul, 2024
使用SLAM展示,在设备上的小型语言模型是与基于API的大型语言模型(如OpenAI的GPT-4)相比,一种可行且成本效益高的替代方案,具有可比的性能和稳定性。这份后续研究详细探讨了如何通过解决偏向高标记数的偏差,来调整LLM评估器与人类评估的偏好之间的差异问题。通过采用贝叶斯统计和t检验来量化此偏差,并开发出重新校准GPTScorer的过程,我们的研究结果在多个应用案例中,显著改进了重新校准的LLM评估器与人类评估之间的斯皮尔曼等级相关分数,例如,在推荐系统的案例中,从-27.27提高到44.55。这些结果强调了在自动化评估中考虑偏差的重要性,以确保公正准确的模型评估。重新校准过程提高了自动评估器的可靠性,从而产生与人类价值观和期望相一致的更好的AI模型。该研究为未来的偏差校正研究提供了强有力的方法,并强调了开发与人类一致的AI评估系统的可行性和益处。
Jul, 2024
本研究针对大型语言模型(LLMs)在偏见检测方面的缺乏标准和成本高昂问题,提出了一种自动生成对抗性提示的创新方法,以揭示模型的偏见反应。研究表明,所提出的LLM作为评判者的评估指标与人类评判一致,显示出其在偏见评估中的潜力和重要性。
Aug, 2024