LangBiTe: 用于测试大型语言模型中偏见的平台

Apr, 2024

LangBiTe: 用于测试大型语言模型中偏见的平台

LangBiTe: A Platform for Testing Bias in Large Language Models

Sergio Morales, Robert Clarisó, Jordi Cabot

TL;DR通过 LangBiTe 测试平台，我们能够系统地评估大型语言模型（LLMs）中的偏见，并提供用户定义的伦理要求下的测试案例与结果的全面追溯。

Abstract

The integration of large language models (LLMs) into various software applications raises concerns about their potential biases. Typically, those models are trained on a vast amount of data scrapped from forums,

large language models biases langbite testing platform ethical requirements

发现论文，激发创造

大型语言模型（LLM）偏差指数 -- LLMBI

大型语言模型偏差指数（LLMBI）通过量化和解决大型语言模型（如 GPT-4）中固有的偏见，为多元领域中越来越普遍和重要的大型语言模型引入了一种创新的度量方法。该研究构建了 LLMBI，通过包括但不限于年龄、性别和种族偏见在内的多个偏见维度的复合评分系统，系统地衡量和缓解可能影响模型响应的偏见。通过收集和注释大型语言模型的响应，应用先进的自然语言处理（NLP）技术进行偏见检测，并通过专门设计的数学公式计算 LLMBI 得分，该公式综合了多个偏见维度的加权平均、数据集多样性不足的惩罚和情感偏见的校正。实证分析使用 OpenAI 的 API 响应进行，在代表性的偏见检测方法中采用了先进的情感分析。研究发现，虽然 LLMs 在文本生成方面展示了令人印象深刻的能力，但在不同维度上存在不同程度的偏见。LLMBI 为比较不同模型和不同时期的偏见提供了量化度量，为系统工程师、研究人员和监管机构提供了重要工具，以提高 LLMs 的公平性和可靠性。它突显了 LLMs 在模仿无偏人类响应方面的潜力，并强调了持续监测和校准此类模型以与不断发展的社会规范和道德标准保持一致的必要性。

Dec, 2023

GPTBIAS：评估大型语言模型中的偏差的综合框架

我们提出了一个名为 GPTBIAS 的偏见评估框架，它利用 LLMs 的高性能来评估模型的偏见，提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息，通过广泛的实验证明了该评估框架的有效性和可用性。

Dec, 2023

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

VLBiasBench：大型视觉语言模型偏见评估综合基准测评

通过引入 VLBiasBench 数据集和进行广泛的评估，我们对大型视觉语言模型中的偏见进行了全面研究，并揭示了一些新的见解。

Jun, 2024

偏见中和框架：用偏见智商（BiQ）衡量大型语言模型中的公平性

本文介绍了综合偏差中性化框架（CBNF），该框架创新性地对大型语言模型（LLMs）中的偏见进行量化和减轻，通过引入称为 BiQ 的新指标来检测、度量和减轻 LLMs 中的种族偏见，而无需依赖人口统计注释。此外，论文还展示了 Latimer AI 对比 ChatGPT 3.5 的详细分析，揭示了 Latimer AI 通过有针对性培训和精细的偏见缓解策略，在检测种族、文化和性别偏见方面的效果。

Apr, 2024

候选筛选背景下的大型语言模型偏置检测

本研究旨在识别和量化 ChatGPT 和其他 OpenAI 大型语言模型在候选人筛选中存在的社会偏差，以展示这些模型的使用可能会延续现有的偏见和不公平现象，从而提出应对方法

May, 2023

探索并缓解语言模型中的社会偏见

为了提高语言模型的公正性，本文提出了多项定义并给出了新的测试和度量方式，旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明，该方法能够在文本生成中减少偏见同时保留重要的上下文信息。

Jun, 2021

大型语言模型中的偏差定量认证

大型语言模型（LLMs）可以产生展现社交偏见并支持刻板印象的回答。然而，传统的基准测试无法充分评估 LLM 偏见，因为它无法扩展到大量的提示集，并且没有提供保证。因此，我们提出了一种新的认证框架 QuaCer-B（Bias 的定量认证），它提供了在大量提示集下从目标 LLMs 获取无偏回答的形式保证。证书包括从分布中采样的包含敏感属性的任何提示集获得有偏回答的概率的高置信度上限。我们通过在给定分布中随机令牌序列、手动越狱的混合和 LLM 嵌入空间中的越狱的提示上对 LLM 的偏见进行证明。我们使用 QuaCer-B 对流行的 LLMs 进行认证，并呈现关于其偏见的新见解。

May, 2024

ROBBIE: 大规模生成语言模型的稳健偏见评估

评估和改善大型语言模型（LLMs）的公平性，通过使用不同的提示性数据集来测量社会偏见，对比模型之间的偏差和毒性度量，并研究偏差 / 毒性降低技术的效果。我们开源分析代码以鼓励测量未来 LLMs 偏见的广泛研究。

Nov, 2023

评估大型语言模型中的政治偏见

我们从德国的角度评估了当前最流行的开源模型在欧洲联盟内涉及政治问题的偏见，发现较大的模型更倾向于与左翼政党相符，而较小的模型通常保持中立，这凸显了 LLM 的细微行为和语言对其政治立场的重要性。我们的发现强调了对 LLMs 进行严格评估和处理社会偏见的重要性，以保障应用现代机器学习方法的应用程序的完整性和公平性。

May, 2024