BBQ: 一个手工制作的问答偏见基准
通过利用英文 BBQ 数据集以适应文化方式构建非英文偏见基准数据集,本文提出了 KoBBQ 数据集用于评估韩语问答任务中的偏见,并通过将韩国文化相关性增强到韩国文化,补充了四个韩国文化特定偏见类别,并基于韩国文学创建了新样本。使用 KoBBQ 数据集,衡量了几种最先进的多语言语言模型的准确性和偏见评分,展示了韩语和英语中语言模型的偏见差异,进一步阐明了考虑文化差异需要手工制作的数据的必要性。
Jul, 2023
本文提供一个超过 10 万个问题的中文偏见基准数据集,包括与中国文化和价值观相关的 14 个社会维度中的刻板印象和社会偏见,通过广泛文献综述、生成环境、AI 辅助去歧义生成、手动审核和重组等步骤,展示了数据集的广泛覆盖和高多样性,实验表明所有 10 个公开可用的中文大型语言模型在某些类别中存在强烈的偏见。
Jun, 2023
研究表明,生成性大型语言模型存在有害的偏见和刻板印象。该论文通过研究不同语言的社会刻板印象,控制文化差异和任务准确性,证实了非英语语言存在更多的偏见,并且观察到跨语言的偏见行为存在显著差异。
Jun, 2024
通过构建基于英文偏见基准 BBQ 的日语偏见基准数据集 JBBQ,并分析日本 LLM 的社会偏见,本研究发现,虽然当前的日本 LLM 通过指导调整提高了在 JBBQ 上的准确性,但其偏见程度却增加了。此外,通过在提示中加入关于社会偏见的警告,可以减轻某些模型中的偏见影响。
Jun, 2024
提出了一种名为 BMBI 的方法,用于减轻多选问题回答模型中的偏见。通过观察一个查询实例对另一个实例的影响来度量查询实例的偏见水平,并将其作为优化目标,形成一个多任务学习设置。引入了一个新的偏见评估度量方法,以全面而敏感的方式量化偏见。实验证明,该方法可应用于多个偏见类别的多个问题回答公式,在不降低问题回答准确性的情况下显著降低了 BBQ 数据集中的 9 个偏见类别的偏见水平。
Oct, 2023
通过研究证明,几种重要的定型偏见:性别、国籍、种族和宗教,都对语言嵌入和问题回答模型产生影响。对基于 transformer 的 QA 模型进行研究,发现这些模型中都存在定型偏见,并且模型越大,偏见越明显。此外,分类器的 fine-tuning 会对这种偏见产生不同的影响。
Oct, 2020
通过对 93 个羞辱现象的分类和构建 QA 数据集来测试社会偏见扩大化对生成性语言模型的影响,发现这些模型生成的输出在很大程度上增加了对受羞辱群体的社会偏见,并且模板设计的选择和问题提示方式都会影响生成的社会偏见输出。
Dec, 2023
本论文探讨了在多任务文本生成模型中,使用问题 - 答案格式输入与前提 - 假设格式输入是否会影响模型的社会偏见,并使用两个基准测试评估了 T0 模型在其中的表现,结果表明前者会使得模型表现出更多的社会偏见。
May, 2022
大型语言模型(LLMs)可以产生展现社交偏见并支持刻板印象的回答。然而,传统的基准测试无法充分评估 LLM 偏见,因为它无法扩展到大量的提示集,并且没有提供保证。因此,我们提出了一种新的认证框架 QuaCer-B(Bias 的定量认证),它提供了在大量提示集下从目标 LLMs 获取无偏回答的形式保证。证书包括从分布中采样的包含敏感属性的任何提示集获得有偏回答的概率的高置信度上限。我们通过在给定分布中随机令牌序列、手动越狱的混合和 LLM 嵌入空间中的越狱的提示上对 LLM 的偏见进行证明。我们使用 QuaCer-B 对流行的 LLMs 进行认证,并呈现关于其偏见的新见解。
May, 2024
通过引入人类知识进行自然语言干预,本研究探索了预训练语言模型的行为特征,以性别偏见为背景,通过问答评估了模型的一致性、偏见倾向、模型偏好和性别偏好切换,并提供了首个基于人类知识的大语言模型偏见评估数据集。
Dec, 2023