教师 - 学生训练用于去偏：大型语言模型的一般排列去偏

Mar, 2024

教师 - 学生训练用于去偏：大型语言模型的一般排列去偏

Teacher-Student Training for Debiasing: General Permutation Debiasing for Large Language Models

Adian Liusie, Yassir Fathullah, Mark J. F. Gales

TL;DR本论文研究了使用蒸馏技术将计算密集的、被消除偏见的教师模型的功能提炼到更紧凑的学生模型中，通过两种学生模型的探索，一种基于纯蒸馏的模型，另一种基于纠错方法用于更复杂的任务，学生模型纠正教师模型的单个有偏决策以达到无偏结果，并证明较小、仅编码器的学生模型在参数数量显著较少的情况下能够胜过较大、有偏的教师模型，取得更好的结果。

Abstract

large language models (LLMs) have demonstrated impressive zero-shot capabilities and versatility in NLP tasks, however they sometimes fail to maintain crucial invariances for specific tasks. One example is permutation sensitivity, where LLMs' outputs may significantly vary depending on

large language models permutation sensitivity debiasing techniques distillation student models

发现论文，激发创造

大型语言模型中的公平性偏差和去偏差之旅

这篇研究使用变换器语言模型研究了其训练数据所带来的偏见问题，并提出了一种去偏方法，得到的去偏模型在下游任务上保持了良好的表现。

May, 2023

大型语言模型的上下文偏见抑制

大型语言模型（LLMs）中存在的性别偏见令人担忧，但提出了一种无需访问模型参数的新方法，即通过手动设计的文本前言和职业描述句来有效抑制性别偏见，并且对下游任务性能影响最小。

Sep, 2023

消除大型视觉语言模型中的偏见

在计算机视觉和自然语言处理领域，本研究重要不可或缺的工具是大型视觉 - 语言模型（LVLMs），它们能够根据视觉输入生成文本描述。然而，我们的调查发现生成的内容存在显著的偏见，主要受到底层大型语言模型（LLMs）的影响而非输入图像。为了纠正这些偏见并将模型的关注重点转向视觉信息，我们提出了两种简单且无需训练的策略。首先，对于分类或多项选择问题回答（QA）等任务，我们通过仿射变换提出了一个 “校准” 步骤来调整输出分布。这种 “事后去偏” 的方法确保了当图像不存在时每个答案都具有均匀的分数，作为一种有效的正则化技术以减轻 LLM 先验的影响。对于更复杂的开放式生成任务，我们将这种方法扩展为 “去偏抽样”，借鉴了对比解码方法的灵感。此外，我们的研究还揭示了 LVLMs 在不同解码配置下的不稳定性，通过对不同设置的系统性探索，我们显著提高了性能，超过了现有评估结果，并对公平性提出了关切。综合实验证明了我们提出的策略在减轻偏见方面的有效性。这些策略不仅有助于减少虚幻现象，还有助于生成更有用和准确的插图。

Mar, 2024

超越性能：量化和减轻 LLMs 中的标签偏差

通过评估不同方法对模型预测中的标签偏倚进行量化研究，我们提出了一种专门用于少样本提示的新型标签偏倚校准方法，其在提高性能和减轻标签偏倚方面优于最近的校准方法。我们的结果强调大型语言模型中标签偏倚对其可靠性的影响。

May, 2024

大语言模型中的差分隐私解码

本文提出了一种简单易行、计算轻量化的扰动机制，保证了模型的隐私性，在不影响模型实用性的情况下，可应用于所有 LLM 模型，解决了 LLM 在隐私保护与重新训练之间的折中问题。

May, 2022

注重权衡：在不损害内部分布性能的情况下去偏向自然语言理解模型

本文介绍了一种名为置信度正则化的新型去偏方法，旨在提高自然语言理解任务模型对于越界数据的表现，同时保持对内界数据的准确度。实验表明，与之前的方法相比，该方法在提高模型对越界数据的表现方面具有更好的效果。

May, 2020

通过内在偏见和遗忘的视角理解面向任务无关的去偏差技术

研究任务不可知偏差减轻对语言建模能力和重新学习社会偏见的影响所面临的挑战，提出了一种新的框架 ProSocialTuning，用于在下游微调中推动模型接近偏见下限，通过已成功去偏的注意力模块的正则化来克服忘记问题。

Jun, 2024

欺骗以启蒙：诱导 LLMs 自省以增强偏见检测和缓解

大型语言模型（LLMs）嵌入了复杂的偏见和刻板印象，可能导致有害的用户体验和社会后果，而模型本身通常没有意识到这一点。本文强调了为 LLMs 配备更好的自我反思和偏见识别机制的重要性。我们的实验表明，通过告知 LLMs 它们生成的内容不代表自己的观点，并对其偏见进行质疑，可以提高 LLMs 识别和解决偏见的能力。这种改进归因于 LLMs 的内部注意力机制和潜在的内部敏感性政策。基于这些发现，我们提出了一个减少 LLMs 输出偏见的新方法。该方法涉及将 LLMs 置于多角色情景中，扮演不同角色，在每个辩论循环的最后担任公正裁判的角色，以暴露偏见。采用排名评分机制来量化偏见水平，从而实现更精细的反思和更优质的输出。比较实验结果证实我们的方法在减少偏见方面优于现有方法，为追求更具伦理 AI 系统的努力作出了有价值的贡献。

Apr, 2024

驾驭 LLMs 朝向无偏响应：一个因果引导的去偏框架

使用因果理解指导设计提示机制的去偏置语言模型框架，能有效减少大型语言模型中的社会偏见。

Mar, 2024

从偏见到平等：消除大型语言模型词向量偏差的新方法

我们提出了 DeepSoftDebias 算法，该算法使用神经网络执行 “软去偏见”，并在各种 SOTA 数据集、准确度指标和复杂的 NLP 任务中进行了全面评估。我们发现 DeepSoftDebias 在减少性别、种族和宗教偏见方面优于当前最先进的方法。

Feb, 2024