大型语言模型（LLM）偏差指数 -- LLMBI

Dec, 2023

大型语言模型（LLM）偏差指数 -- LLMBI

Large Language Model (LLM) Bias Index -- LLMBI

Abiodun Finbarrs Oketunji, Muhammad Anas, Deepthi Saina

TL;DR大型语言模型偏差指数（LLMBI）通过量化和解决大型语言模型（如 GPT-4）中固有的偏见，为多元领域中越来越普遍和重要的大型语言模型引入了一种创新的度量方法。该研究构建了 LLMBI，通过包括但不限于年龄、性别和种族偏见在内的多个偏见维度的复合评分系统，系统地衡量和缓解可能影响模型响应的偏见。通过收集和注释大型语言模型的响应，应用先进的自然语言处理（NLP）技术进行偏见检测，并通过专门设计的数学公式计算 LLMBI 得分，该公式综合了多个偏见维度的加权平均、数据集多样性不足的惩罚和情感偏见的校正。实证分析使用 OpenAI 的 API 响应进行，在代表性的偏见检测方法中采用了先进的情感分析。研究发现，虽然 LLMs 在文本生成方面展示了令人印象深刻的能力，但在不同维度上存在不同程度的偏见。LLMBI 为比较不同模型和不同时期的偏见提供了量化度量，为系统工程师、研究人员和监管机构提供了重要工具，以提高 LLMs 的公平性和可靠性。它突显了 LLMs 在模仿无偏人类响应方面的潜力，并强调了持续监测和校准此类模型以与不断发展的社会规范和道德标准保持一致的必要性。

Abstract

The large language model bias index (llmbi) is a pioneering approach designed to quantify and address biases inherent in →

large language model bias index biases large language models llmbi sentiment analysis

发现论文，激发创造

偏见中和框架：用偏见智商（BiQ）衡量大型语言模型中的公平性

本文介绍了综合偏差中性化框架（CBNF），该框架创新性地对大型语言模型（LLMs）中的偏见进行量化和减轻，通过引入称为 BiQ 的新指标来检测、度量和减轻 LLMs 中的种族偏见，而无需依赖人口统计注释。此外，论文还展示了 Latimer AI 对比 ChatGPT 3.5 的详细分析，揭示了 Latimer AI 通过有针对性培训和精细的偏见缓解策略，在检测种族、文化和性别偏见方面的效果。

Apr, 2024

GPTBIAS：评估大型语言模型中的偏差的综合框架

我们提出了一个名为 GPTBIAS 的偏见评估框架，它利用 LLMs 的高性能来评估模型的偏见，提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息，通过广泛的实验证明了该评估框架的有效性和可用性。

Dec, 2023

LangBiTe: 用于测试大型语言模型中偏见的平台

通过 LangBiTe 测试平台，我们能够系统地评估大型语言模型（LLMs）中的偏见，并提供用户定义的伦理要求下的测试案例与结果的全面追溯。

Apr, 2024

基于似然的大型语言模型评估偏差的缓解

大型语言模型广泛用于自然语言生成任务的自动评估指标，然而，由于句子中的表面差异（如词序和句子结构），可能会导致语言模型的可能性有所偏差，本文研究了基于语言模型的评估器中可能存在的可能性偏见，并提出了缓解可能性偏见的方法，该方法利用高度偏倚的实例作为少样本示例进行上下文学习，实验证明我们测试的几个语言模型存在可能性偏见，而且我们提出的方法成功地缓解了这种偏见，并显著提高了评估性能（与人类评分的相关性）。

Feb, 2024

大型语言模型作为评估者的认知偏差基准测试

大型语言模型（LLMs）作为通过简单提示和上下文学习的自动评估器已被证明有效。本研究汇集了四个不同规模范围的 15 个 LLMs，并通过系统之间的偏好排序来评估它们的输出响应，如 System Star 优于 System Square。我们引入了 LLMs 作为评估器的认知偏差基准（CoBBLEr）来评估排序输出的质量，该基准用于衡量 LLM 评估输出中的六种不同的认知偏差，如自我中心偏差，其中模型倾向于高度评估其自身的输出。我们发现 LLMs 是有偏差的文本质量评估器，在评估中展示出强烈的偏见基准迹象（在所有模型中的比较平均为 40%），这对其作为评估器的稳健性提出了质疑。此外，我们检查了人类和机器偏好之间的相关性，并计算出平均 Rank-Biased Overlap（RBO）得分为 49.6%，表明机器偏好与人类不一致。根据我们的发现，LLMs 可能仍然不能用于与人类偏好对齐的自动注释。我们的项目页面位于此 https URL。

Sep, 2023

超越性能：量化和减轻 LLMs 中的标签偏差

通过评估不同方法对模型预测中的标签偏倚进行量化研究，我们提出了一种专门用于少样本提示的新型标签偏倚校准方法，其在提高性能和减轻标签偏倚方面优于最近的校准方法。我们的结果强调大型语言模型中标签偏倚对其可靠性的影响。

May, 2024

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

BIBench：大型语言模型的数据分析知识基准测试

为了评估大型语言模型（LLMs）在商业情报领域中数据分析能力方面的表现，研究引入了 BIBench，一种全面的基准测试。BIBench 评估 LLMs 在商业情报基础知识、知识应用和技术技能三个维度上的能力，并且包含 11 个子任务。另外，研究还开发了 BIChat，一个包含百万个数据点的领域特定数据集，用于对 LLMs 进行优化。通过提供一种对 LLMs 能力进行深入分析的度量标准，BIBench 旨在推动 LLMs 在数据分析领域的发展。

Jan, 2024

从字节到偏见：研究大型语言模型的文化自我认知

这项研究通过从 GLOBE 项目获取的价值问题激发 ChatGPT（OpenAI）和 Bard（Google）来探讨了大型语言模型的文化自我认知，结果显示它们与英语国家和经济竞争力强的国家的价值观最为相似。认识到大型语言模型的文化偏见并理解它们的工作方式对社会中的所有人都非常重要，因为我们不希望人工智能的黑盒子延续偏见，使人类在无意中创造和训练更加带有偏见的算法。

Dec, 2023

ROBBIE: 大规模生成语言模型的稳健偏见评估

评估和改善大型语言模型（LLMs）的公平性，通过使用不同的提示性数据集来测量社会偏见，对比模型之间的偏差和毒性度量，并研究偏差 / 毒性降低技术的效果。我们开源分析代码以鼓励测量未来 LLMs 偏见的广泛研究。

Nov, 2023