LIDAO: 限制干预以解决（大规模）语言模型偏见问题

Jun, 2024

LIDAO: 限制干预以解决（大规模）语言模型偏见问题

LIDAO: Towards Limited Interventions for Debiasing (Large) Language Models

Tianci Liu, Haoyu Wang, Shiyang Wang, Yu Cheng, Jing Gao

TL;DR大型语言模型中的公平性和流畅度之间的权衡问题研究，提出了一种基于信息论的框架 LIDAO，用于使语言模型更好地实现公平性而仍保持流畅度。

Abstract

large language models (LLMs) have achieved impressive performance on various natural language generation tasks. Nonetheless, they suffer from generating negative and harmful contents that are biased against certain demographic groups (e.g., female), raising severe →

large language models fairness fluency debiasing lidao

发现论文，激发创造

大型语言模型公平性调研

大语言模型带来了强大的性能和发展前景，并广泛应用于现实世界。然而，这些模型可能从未经处理的训练数据中捕捉到社会偏见，并将其传播到下游任务。本文全面回顾了关于大语言模型中的公平性的相关研究，介绍了中等规模的模型和大规模的模型分别从内在偏见和外在偏见的角度引入了评估指标和去偏方法，并讨论了公平性发展中的挑战和未来方向。

Aug, 2023

驾驭 LLMs 朝向无偏响应：一个因果引导的去偏框架

使用因果理解指导设计提示机制的去偏置语言模型框架，能有效减少大型语言模型中的社会偏见。

Mar, 2024

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

模型适应的去偏算法

提出了一种用于检测和减轻语言模型中性别偏见的新方法，通过因果分析确定了问题模型组件，发现中上部前馈层最容易传递偏见，根据分析结果通过线性投影来改进模型，该方法（DAMA）显著减少了偏见，并保持了模型在下游任务上的性能。

Oct, 2023

欺骗以启蒙：诱导 LLMs 自省以增强偏见检测和缓解

大型语言模型（LLMs）嵌入了复杂的偏见和刻板印象，可能导致有害的用户体验和社会后果，而模型本身通常没有意识到这一点。本文强调了为 LLMs 配备更好的自我反思和偏见识别机制的重要性。我们的实验表明，通过告知 LLMs 它们生成的内容不代表自己的观点，并对其偏见进行质疑，可以提高 LLMs 识别和解决偏见的能力。这种改进归因于 LLMs 的内部注意力机制和潜在的内部敏感性政策。基于这些发现，我们提出了一个减少 LLMs 输出偏见的新方法。该方法涉及将 LLMs 置于多角色情景中，扮演不同角色，在每个辩论循环的最后担任公正裁判的角色，以暴露偏见。采用排名评分机制来量化偏见水平，从而实现更精细的反思和更优质的输出。比较实验结果证实我们的方法在减少偏见方面优于现有方法，为追求更具伦理 AI 系统的努力作出了有价值的贡献。

Apr, 2024

AXOLOTL: 通过协助自我消除大型语言模型输出的公正性

通过 Axolotl，这一新颖的后处理框架，在不需要直接访问模型内部参数的情况下，与 LLMs 进行交互，通过类似零样本学习的三步过程识别偏见、提出解决方案并引导模型进行自我去偏差，从而降低计算成本并保持模型性能，为广泛应用和易于使用的 LLMs 去偏差工具提供了希望。

Mar, 2024

在大型语言模型中定位和缓解性别偏见

本研究提出了一种基于因果中介分析的方法来追踪大型语言模型中不同组件激活的因果效应，并在此基础上提出了最小二乘去偏（LSDM）方法，用于减少职业代词中的性别偏见，实验结果表明 LSDM 方法比其他基线方法更有效地减少模型中的性别偏见，同时在其他方面完全保留了模型的能力。

Mar, 2024

自由放任的危害：生成式语言模型中的算法偏差

通过开放式提示，我们发现模型产生的文本在描绘边缘群体的身份时存在错误、隐含和刻板印象的问题，这些问题可能导致心理伤害和认知能力下降。

Apr, 2024

评估和缓解大型语言模型中的语言歧视

通过使用多种语言进行训练，大型语言模型（LLMs）通常具有多语言支持，并展示出在不同语言描述的任务中解决问题的显著能力。然而，由于在不同语言之间训练数据的不均衡分布，LLMs 可能表现出语言歧视，即面对相同任务但在不同语言中描述时，难以保持一致的响应。在本研究中，我们首先从安全性和质量两个方面探讨 LLMs 在对各种语言的查询产生的输出的一致性。我们使用两个数据集（AdvBench 和 NQ）对四个 LLMs（Llama2-13b、Gemma-7b、GPT-3.5-turbo 和 Gemini-pro）进行分析。结果显示，与孟加拉语、格鲁吉亚语、尼泊尔语和迈蒂利语的查询相比，LLMs 对英语、法语、俄语和西班牙语的查询表现出更强的人类对齐能力（平均有 1.04％的有害查询成功越狱）。此外，对于英语、丹麦语、捷克语和斯洛文尼亚语的查询，LLMs 倾向于产生具有更高质量的响应（平均 F1 得分为 0.1494），与其他语言相比。基于这些发现，我们提出了一种基于相似度的投票机制 LDFighter 来减轻 LLMs 中的语言歧视。LDFighter 确保为不同语言使用者提供一致的服务。我们使用良性查询和有害查询来评估 LDFighter。结果显示，LDFighter 不仅显著降低了成功越狱的概率，还平均改善了响应质量，证明了其有效性。

Apr, 2024

消除大型视觉语言模型中的偏见

在计算机视觉和自然语言处理领域，本研究重要不可或缺的工具是大型视觉 - 语言模型（LVLMs），它们能够根据视觉输入生成文本描述。然而，我们的调查发现生成的内容存在显著的偏见，主要受到底层大型语言模型（LLMs）的影响而非输入图像。为了纠正这些偏见并将模型的关注重点转向视觉信息，我们提出了两种简单且无需训练的策略。首先，对于分类或多项选择问题回答（QA）等任务，我们通过仿射变换提出了一个 “校准” 步骤来调整输出分布。这种 “事后去偏” 的方法确保了当图像不存在时每个答案都具有均匀的分数，作为一种有效的正则化技术以减轻 LLM 先验的影响。对于更复杂的开放式生成任务，我们将这种方法扩展为 “去偏抽样”，借鉴了对比解码方法的灵感。此外，我们的研究还揭示了 LVLMs 在不同解码配置下的不稳定性，通过对不同设置的系统性探索，我们显著提高了性能，超过了现有评估结果，并对公平性提出了关切。综合实验证明了我们提出的策略在减轻偏见方面的有效性。这些策略不仅有助于减少虚幻现象，还有助于生成更有用和准确的插图。

Mar, 2024