CALM：一个综合评估语言模型偏见的多任务基准

Aug, 2023

CALM：一个综合评估语言模型偏见的多任务基准

CALM : A Multi-task Benchmark for Comprehensive Assessment of Language Model Bias

Vipul Gupta, Pranav Narayanan Venkit, Hugo Laurençon, Shomir Wilson, Rebecca J. Passonneau

TL;DR评估语言模型偏见的全面评估基准数据集（CALM）是用于量化与比较语言模型社会人口统计偏见的重要资源，通过整合现有数据集并构建包含 78,400 个样例的 244 个模板的数据集，CALM 数据集更具多样性和可靠性，能更好地评估语言模型的广度和偏见。

Abstract

As language models (LMs) become increasingly powerful, it is important to quantify and compare them for sociodemographic bias with potential for harm. Prior bias measurement datasets are sensitive to perturbation

language models sociodemographic bias comprehensive assessment of language model bias dataset model bias

发现论文，激发创造

基于能力的语言模型分析

本文提出了 CALM 实验框架并使用梯度基于对抗攻击的方法对语言模型的内部表示进行破坏性实验，以评估其在执行特定任务时使用每个表示的能力。在对 BERT 等 LM 执行对应关系提示任务的案例研究中，发现 LM 在执行每个任务时所利用的表示高度交织在一起，但可以在它们最常被利用的任务方面进行有意义的解释。

Mar, 2023

CALM: 连续适应学习的语言建模

该研究论文提出了 CALM 技术，通过对大型语言表示模型进行连续自适应学习，使其跨领域保留知识，并在生物医学和临床领域的实验中展示了任务特定模型与 CALM 模型性能差距的减小。

Apr, 2020

VLBiasBench：大型视觉语言模型偏见评估综合基准测评

通过引入 VLBiasBench 数据集和进行广泛的评估，我们对大型视觉语言模型中的偏见进行了全面研究，并揭示了一些新的见解。

Jun, 2024

ROBBIE: 大规模生成语言模型的稳健偏见评估

评估和改善大型语言模型（LLMs）的公平性，通过使用不同的提示性数据集来测量社会偏见，对比模型之间的偏差和毒性度量，并研究偏差 / 毒性降低技术的效果。我们开源分析代码以鼓励测量未来 LLMs 偏见的广泛研究。

Nov, 2023

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

大型语言模型中的偏差定量认证

大型语言模型（LLMs）可以产生展现社交偏见并支持刻板印象的回答。然而，传统的基准测试无法充分评估 LLM 偏见，因为它无法扩展到大量的提示集，并且没有提供保证。因此，我们提出了一种新的认证框架 QuaCer-B（Bias 的定量认证），它提供了在大量提示集下从目标 LLMs 获取无偏回答的形式保证。证书包括从分布中采样的包含敏感属性的任何提示集获得有偏回答的概率的高置信度上限。我们通过在给定分布中随机令牌序列、手动越狱的混合和 LLM 嵌入空间中的越狱的提示上对 LLM 的偏见进行证明。我们使用 QuaCer-B 对流行的 LLMs 进行认证，并呈现关于其偏见的新见解。

May, 2024

CEB：大型语言模型公平性的组合评估基准

评估大型语言模型的偏见，设计数据集进行偏见评估，并提出基于组合评估标准的评估策略，以指导特定偏见缓解方法的发展。

Jul, 2024

语言模型的因果评估

通过引入评估语言模型因果推理能力的综合基准 CaLM，该论文提出了四个模块的基础分类法以及一个由 126,334 个数据样本组成的 CaLM 数据集，并对 28 个领先的语言模型进行了全面评估，并给出了 50 个高级经验发现，以提供未来语言模型开发的有价值指导。

May, 2024

强大多数，偏倚少数：通过大型语言模型实现综合信用评分

研究发现，LLMs 在信用评估中具有潜力，可以克服传统模型的局限，强调金融行业中客观决策的重要性。

Oct, 2023

语言模型置信度评估与校准调查

评估语言模型预测的可靠性和置信度以及解决其与 AI 安全需求的关系是一项重要研究领域，本文综述了语言模型置信度估计和校准的方法、技术和挑战，并提出了未来研究的方向。

Nov, 2023