Jun, 2024

BEADs:跨领域偏见评估

TL;DR近期大型语言模型取得重大突破,显著增强了自然语言处理应用,但这些模型也可能继承和持续传播来自训练数据的偏见。为了解决这个问题,我们介绍了 Bias Evaluations Across Domains (BEADs) 数据集,旨在支持各种自然语言处理任务,包括文本分类、偏见实体识别、偏见量化和良性语言生成。BEADs 使用 AI 驱动的注释结合专家验证来提供可靠的标签,克服了现有数据集的局限性。实证分析表明,BEADs 能够有效检测和减少不同语言模型的偏见,经过 BEADs 微调的较小模型在偏见分类任务中通常优于大型语言模型。然而,这些模型可能仍对特定人群存在偏见。使用我们的良性语言数据对大型语言模型进行微调也能减少偏见并保留模型的知识。我们的发现突出了全面偏见评估的重要性以及针对大型语言模型减少偏见的有针对性微调的潜力。我们将 BEADs 公开提供。