大型语言模型的上下文偏见抑制

Sep, 2023

In-Contextual Bias Suppression for Large Language Models

Daisuke Oba, Masahiro Kaneko, Danushka Bollegala

TL;DR大型语言模型（LLMs）中存在的性别偏见令人担忧，但提出了一种无需访问模型参数的新方法，即通过手动设计的文本前言和职业描述句来有效抑制性别偏见，并且对下游任务性能影响最小。

Abstract

Despite their impressive performance in a wide range of NLP tasks, Large Language Models (LLMs) have been reported to encode worrying-levels of gender bias. Prior work has proposed debiasing methods that require human labelled examples, data augmentation and fine-tuning of the LLMs, wh

large language models (llms)gender bias debiasing methods bias suppression downstream task performance

发现论文，激发创造

LLMs 中性别偏见的揭示与减轻

大语言模型可以生成具有偏见的回答。然而，先前的直接探测技术包含性别提及或预定义的性别刻板印象，这些很难全面收集。因此，我们提出了一种基于条件生成的间接探测框架，旨在诱使大语言模型揭示其性别偏见，即使没有显式的性别或刻板印象提及。我们探索了三种不同的策略来揭示大语言模型中的显式和隐式性别偏见。我们的实验证明，所有经过测试的大语言模型都表现出显式和 / 或隐式的性别偏见，即使输入中没有性别刻板印象。此外，模型大小的增加或模型对齐会放大大多数情况下的偏见。此外，我们通过超参数调整、指导性指导和去偏调整这三种方法来研究大语言模型中的偏见缓解。值得注意的是，即使没有显式的性别或刻板印象，这些方法也被证明是有效的。

Feb, 2024

在大型语言模型中定位和缓解性别偏见

本研究提出了一种基于因果中介分析的方法来追踪大型语言模型中不同组件激活的因果效应，并在此基础上提出了最小二乘去偏（LSDM）方法，用于减少职业代词中的性别偏见，实验结果表明 LSDM 方法比其他基线方法更有效地减少模型中的性别偏见，同时在其他方面完全保留了模型的能力。

Mar, 2024

大型语言模型中的性别偏见

我们研究了不同语言中大型语言模型生成的输出中的性别偏见，通过三项测量方法评估性别相关背景下选择描述性词语的性别偏见、选择性别相关代词（她 / 他）的性别偏见以及生成对话的主题的性别偏见。我们的研究表明，在我们调查的所有语言中都存在显著的性别偏见。

Mar, 2024

大型语言模型中的性别偏见煽动与缓解之学习

自动检测大型语言模型（如 ChatGPT 和 GPT-4）潜在性别偏见的研究，提出了一种自动生成测试用例的方法，并通过这些测试用例来减轻模型偏见，从而实现更公正的回复。

Oct, 2023

大型语言模型中的下游性别偏见揭示：AI 教育写作辅助研究

通过大规模用户研究，评估了大型语言模型在写作支持中存在的偏倚，并发现这些偏倚并不会对学生的写作反馈产生显著影响。

Nov, 2023

大型语言模型中的性别偏见和刻板印象

通过对四个最近发表的大型语言模型进行测试，我们发现大型语言模型在性别刻板印象、职业偏见和句子结构等方面表现出偏见，它们更倾向于选择与性别刻板印象相关的职业，并且在提供自己选择的解释时常常存在事实错误，对于这些模型的偏见行为，我们需要谨慎测试以确保它们对待边缘化个体和社区是公平的。

Aug, 2023

通过 LLM 条件文本生成探索明确和隐含的性别偏见

大型语言模型的性别偏见评估涉及大量预定义的性别相关短语和性别刻板印象，而这些短语和刻板印象的全面收集具有挑战性且限制于显性偏见评估。本文提出了一种无需预定义性别短语和刻板印象的条件文本生成机制，通过三种不同策略生成的三种类型的输入来检测大型语言模型中的显性和隐性性别偏见。我们还使用显性和隐性评估指标来评估不同策略下大型语言模型中的性别偏见。实验证明，模型规模的增加并不一定会提高公平性，所有测试的大型语言模型都表现出显性和 / 或隐性性别偏见，即使输入中没有显性性别刻板印象。

Nov, 2023

探测大型语言模型中的未预料偏见

通过探索新的方法来检测大型语言模型中的潜在偏见，本研究聚焦于不确定性量化和可解释人工智能方法，旨在提高模型决策的透明性，以识别和理解不明显的偏见，从而为更加公平和透明的人工智能系统的发展做出贡献。

Apr, 2024

超越性能：量化和减轻 LLMs 中的标签偏差

通过评估不同方法对模型预测中的标签偏倚进行量化研究，我们提出了一种专门用于少样本提示的新型标签偏倚校准方法，其在提高性能和减轻标签偏倚方面优于最近的校准方法。我们的结果强调大型语言模型中标签偏倚对其可靠性的影响。

May, 2024

GPTBIAS：评估大型语言模型中的偏差的综合框架

我们提出了一个名为 GPTBIAS 的偏见评估框架，它利用 LLMs 的高性能来评估模型的偏见，提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息，通过广泛的实验证明了该评估框架的有效性和可用性。

Dec, 2023