CHBias：中文对话语言模型的偏见评估与缓解

ACLMay, 2023

CHBias：中文对话语言模型的偏见评估与缓解

CHBias: Bias Evaluation and Mitigation of Chinese Conversational Language Models

Jiaxu Zhao, Meng Fang, Zijing Shi, Yitong Li, Ling Chen...

TL;DR本文介绍了一个新的中文数据集 CHBias，用于对中文会话语言模型进行偏见评估和缓解。试验结果表明，使用该数据集的去偏执方法可以减少生成具有社会偏见的文本，同时保持模型的对话功能。

Abstract

\textit{\textbf{\textcolor{red}{Warning}:} This paper contains content that may be offensive or upsetting.} Pretrained conversational agents have been exposed to safety issues, exhibiting a range of stereotypical human biases such as gender bias. However, there are still limited bias categories in current research, and most of them only focus on English. In

chinese conversational language models bias evaluation debiasing methods chbias dataset social biases

发现论文，激发创造

CBBQ：一個由人工智能協作策劃的中文偏差測試數據集，供大型語言模型使用

本文提供一个超过 10 万个问题的中文偏见基准数据集，包括与中国文化和价值观相关的 14 个社会维度中的刻板印象和社会偏见，通过广泛文献综述、生成环境、AI 辅助去歧义生成、手动审核和重组等步骤，展示了数据集的广泛覆盖和高多样性，实验表明所有 10 个公开可用的中文大型语言模型在某些类别中存在强烈的偏见。

Jun, 2023

CORGI-PM: 一个用于探测和缓解性别偏见的中文语料库

提出了一种在中文语境下进行性别偏见标注的高质量标注语料库 CORGI-PM，其中包含 32.9k 个句子。同时，作者们还解决了文本性别偏见的自动去除中面临的三个挑战，即检测、分类和去除。作者观察到，这是首个用于性别偏见探测和去除的中文语境句子级语料库。

Jan, 2023

RedditBias：对话语言模型偏见评估和去偏见的现实世界资源

本文研究文本表示模型的偏见问题。尤其是，对于会话语言模型中存在的偏见问题，资源和方法有限，并且缺乏综合评估框架。本文提出了 RedditBias，一种多维偏见评测数据集，并开发了使用其进行评估测试的框架，同时测试了使用四种去偏见方法修复模型偏见后模型在会话生成方面的性能。结果表明，DialoGPT 模型存在宗教群体的偏见问题，但某些去偏见技术可以消除此种偏见并保留下游任务的性能。

Jun, 2021

ChatGPT 的偏见是否应存在？大型语言模型中存在的偏见挑战和风险

本文探讨大规模语言模型（如 ChatGPT）中固有偏见的挑战和风险，讨论其起源、伦理问题、缓解偏见的潜在机会、在虚拟助手、内容生成功能和聊天机器人中部署这些模型的意义以及如何鉴别、量化和缓解语言模型中的偏见，强调了需要跨学科的合作来开发更公正、透明和负责任的人工智能系统。

Apr, 2023

IndiBias: 用于测量印度语境下语言模型社会偏见的基准数据集

IndiBias 是一个专门为评估印度社会偏见而设计的全面基准数据集，它将现有的 CrowS-Pairs 数据集过滤和翻译成印地语，并利用 ChatGPT 和 InstructGPT 等大型语言模型增加了印度独特的社会偏见和刻板印象维度，同时还针对交叉偏见构建了相应的资源。该数据集包含 800 个过滤后的句子和用于不同人口统计的偏见测量元组，提供英语和印地语两种语言的版本，规模可与现有的基准数据集相媲美。通过使用 IndiBias，我们比较了十种不同的语言模型在多个偏见测量指标上的表现，发现语言模型在大多数交叉群体中表现出更多偏见。

Mar, 2024

探索对话系统中的社交偏见：框架、数据集和基准

本文提出了一种社会偏见检测的新框架 Dial-bias，通过该框架构建了中文社会偏见对话数据集，并建立了不同粒度和输入类型的对话偏见检测基准，旨在帮助实践中构建更安全的对话系统。

Feb, 2022

大型语言模型中的性别偏见煽动与缓解之学习

自动检测大型语言模型（如 ChatGPT 和 GPT-4）潜在性别偏见的研究，提出了一种自动生成测试用例的方法，并通过这些测试用例来减轻模型偏见，从而实现更公正的回复。

Oct, 2023

评估和减轻多语言环境中的性别偏见

这项研究探讨在多语言环境中评估和减少性别偏见在语言模型中的挑战，并通过 DisCo 扩展到不同的印度语言来创建了一个评估预训练屏蔽语言模型中性别偏见的基准，同时评估了各种方法对 SOTA 大规模多语言模型减轻此类偏见的有效性。

Jul, 2023

女王也很有力量：缓解对话生成中的性别偏见

研究分析了对话数据中存在的性别偏见及其在生成模型中的放大问题，并提出了三种消除性别偏见的技术：因果数据增广、有针对性的数据收集和偏见控制训练。通过各种评估方法，验证了这些技术可以使生成的对话回应中性别不平衡的问题得到缓解。

Nov, 2019

基于对抗学习减轻神经对话生成中的性别偏见

本文提出了基于对抗学习的、旨在降低对话系统中性别歧视的新框架 Debiased-Chat，并在两个真实的对话数据集上进行了广泛的实验，结果表明该框架明显降低了对话模型的性别偏见，同时保持了响应质量。

Sep, 2020