ROBBIE: 大规模生成语言模型的稳健偏见评估

EMNLPNov, 2023

ROBBIE: 大规模生成语言模型的稳健偏见评估

ROBBIE: Robust Bias Evaluation of Large Generative Language Models

David Esiobu, Xiaoqing Tan, Saghar Hosseini, Megan Ung, Yuchen Zhang...

TL;DR评估和改善大型语言模型（LLMs）的公平性，通过使用不同的提示性数据集来测量社会偏见，对比模型之间的偏差和毒性度量，并研究偏差 / 毒性降低技术的效果。我们开源分析代码以鼓励测量未来 LLMs 偏见的广泛研究。

Abstract

As generative large language models (LLMs) grow more performant and prevalent, we must develop comprehensive enough tools to measure and improve their fairness. Different →

large language models fairness prompt-based datasets benchmarking bias/toxicity mitigation techniques

发现论文，激发创造

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

GPTBIAS：评估大型语言模型中的偏差的综合框架

我们提出了一个名为 GPTBIAS 的偏见评估框架，它利用 LLMs 的高性能来评估模型的偏见，提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息，通过广泛的实验证明了该评估框架的有效性和可用性。

Dec, 2023

利用大型语言模型揭示和缓解心理健康分析中的偏见

大型语言模型的进展展示了在各个应用领域的强大能力，包括心理健康分析。然而，现有的研究着重于预测性能，对公平性这一关键问题的探讨不足，给弱势人群带来了重大风险。我们通过针对八个不同的心理健康数据集，使用十种不同的提示方法，系统地评估了七个社会因素的偏见。结果表明，GPT-4 在性能和公平性方面实现了最佳的平衡，尽管在某些情况下仍落后于领域特定模型如 MentalRoBERTa。此外，我们针对公平性进行调整的提示方法可以有效减轻在心理健康预测中的偏见，凸显了在该领域进行公平分析的巨大潜力。

Jun, 2024

在综合描述符数据集中发现语言模型中的新偏见

本文介绍了一种全新的包含 13 个不同人口统计学轴线近 600 个描述符的、基于 HolisticBias 的更加包容性的偏差测量数据集，结合一组偏差测量模板产生超过 45 万个独特的句子提示，用于探索、识别和减少几个生成模型中的新型偏差。

May, 2022

社会偏见探测：语言模型的公平性基准测试

本研究提出了一种新的框架，用于探索语言模型中的社会偏见，通过采集探索数据集和利用一种新的公平性评分方法，发现语言模型中的偏见更加复杂，并揭示不同宗教身份导致各种模型中最明显的不平等处理。

Nov, 2023

语言模型的新发现：在自然语言推理数据和模型中的鲁棒性 - 偏差互动

本文提出了一种利用语言模型生成词汇变体、对抗性过滤和人工验证相结合的方法扩展现有的 Bias Benchmark for NLI (BBNLI) 测评数据集为 BBNLI-next，并介绍了能够区分模型误差类型的倾向度（bias）测量标准，说明了现有偏见分数存在的不足并提出了考虑到促进 / 反对刻板印象倾向和模型脆弱性的倾向度测量标准。

May, 2023

PromptBench：评估大型语言模型对对抗性提示的鲁棒性

本研究使用 adversarial prompts 对 Large Language Models 进行度量，并分析了 prompt 鲁棒性及其传递性，为 prompt 组合提供了实用性建议。

Jun, 2023

通过开放式语言生成测量偏见的挑战

本文分析了影响社会偏见结果的文本补全的具体选择、度量、自动工具和抽样策略，发现在不同的实验设置下，测量偏见的实践很容易产生相互矛盾的结果，并提供了有关开放式语言生成中报告偏见的建议，从而更完整地展示给定语言模型所展示的偏见。

May, 2022

一个揭示大型语言模型中健康公平伤害和偏见的工具箱

用人工评估框架和数据集设计方法，对大型语言模型中的偏见进行评估，以实现促进公平可及的医疗保健的共同目标。

Mar, 2024

超越性能：量化和减轻 LLMs 中的标签偏差

通过评估不同方法对模型预测中的标签偏倚进行量化研究，我们提出了一种专门用于少样本提示的新型标签偏倚校准方法，其在提高性能和减轻标签偏倚方面优于最近的校准方法。我们的结果强调大型语言模型中标签偏倚对其可靠性的影响。

May, 2024