CRISPR：从指令跟踪语言模型中消除偏置神经元

Nov, 2023

CRISPR：从指令跟踪语言模型中消除偏置神经元

CRISPR: Eliminating Bias Neurons from an Instruction-following Language Model

Nakyeong Yang, Taegwan Kang, Kyomin Jung

TL;DR该研究介绍了一种用于减轻大型语言模型中指令 - 标签偏见的新的偏见缓解方法，称为 CRISPR，该方法利用属性方法识别有影响的偏见神经元并通过修剪来消除这些偏见神经元。实验结果表明，CRISPR 在减轻指令 - 标签偏见方面非常有效，在社交偏见基准上提高了语言模型的性能，同时不损害现有知识。CRISPR 是高度实用和模型无关的，具有在应对不断演变的社交偏见中灵活性的特点。

Abstract

large language models (LLMs) executing tasks through instruction-based prompts often face challenges stemming from distribution differences between user instructions and training instructions. This leads to distractions and biases, especially when dealing with inconsistent dynamic labe

large language models instruction-based prompts bias mitigation crispr attribution methods

发现论文，激发创造

恶魔在神经元中：解释和减轻预训练语言模型中的社会偏见

该论文提出了 "社会偏见神经元" 的概念，并介绍了一种能够精确定位和抑制与社会偏见相关的单元的方法，从而降低预训练语言模型中的社会偏见。该方法通过使用情感提示词激发与特定情感相关的敏感词和人口统计数据，通过测量其产生的偏差来定位并抑制造成不良行为的特定神经元。该模型在降低社会偏见的同时保持了较低的成本和良好的语言建模能力。

Jun, 2024

CRISPR：集成模型

该论文提出了一种新的合奏学习方法来设计单导 RNA，该方法能够准确且具有一般性地预测 CRISPR 的靶向有效性和离靶敏感性，从而改善对不同基因和细胞数据集的泛化能力。通过在一个基准数据集上进行评估，发现该方法在准确性和泛化能力方面优于现有方法，并且可以用于设计具有高灵敏度和特异性的单导 RNA，甚至对于新基因或细胞，这对于临床使用 CRISPR 技术提供了重要的启示，因为它使研究人员能够设计更有效和更安全的治疗方法来对抗各种疾病。

Mar, 2024

针对预训练语言模型的少样本指令提示，用于检测社会偏见

提出了一种用于指示预训练语言模型检测社会偏见的 few-shot 方法，该方法用少量标记过的示例和定义的偏见作为指示提供给模型，大型语言模型的检测效果十分准确。

Dec, 2021

指示微调语言模型是否能够通过提示识别社会偏见？

评估指令微调语言模型通过零样本提示，包括思维链（CoT）提示，识别偏见的能力，其中 Alpaca 7B 在偏见识别任务中具有 56.7％的准确性，同时展示了 LLM 规模和数据多样性的扩大可能会进一步提高性能。

Jul, 2023

发现代码生成中偏差的简单而有效方法

本文探究了现有代码生成系统中基于大型语言模型的偏见在特定情况下可能泄漏到生成代码中的问题，提出了一种自动消除提示并暴露各种偏见的框架，并将其应用于三个编码挑战中测试，发现代码生成模型存在特定提示结构和关键字的偏见，最后，我们展示了如何将我们的框架作为数据转换技术，这是更强大的代码生成方向。

Oct, 2022

参数高效的 Diff 剪枝用于偏差缓解

介绍了一种模块化的架构，应用 DiffPruning 和对抗训练技术在保持语言模型存储效率的同时，减少预设受保护属性对推理结果的影响。

May, 2022

大型语言模型的上下文偏见抑制

大型语言模型（LLMs）中存在的性别偏见令人担忧，但提出了一种无需访问模型参数的新方法，即通过手动设计的文本前言和职业描述句来有效抑制性别偏见，并且对下游任务性能影响最小。

Sep, 2023

受指导的偏见：经过指导调节的语言模型呈现出应急认知偏差

通过检验三种认知偏见（假象效应、确定性效应和信仰偏误）在经过指导调优的语言模型中的存在程度，我们的研究提供了证据表明，这些经过调优的模型表现出过去预训练模型中不存在或较不明显的偏见，进一步突出了这些偏见存在于各种模型中的事实，特别是那些经过指导调优的模型，如 Flan-T5，GPT3.5 和 GPT4，这一研究对认识指导调优的语言模型中的认知偏见是至关重要的，从而对更可靠、无偏的语言模型的发展具有重要意义。

Aug, 2023

OpinionGPT: 模拟指导调整的 LLMs 中的显式偏见建模

通过 OpinionGPT 演示，我们展示了 OpinionGPT 网页应用，用户可以提问并选择他们希望调查的各种偏见。通过对代表不同偏见的文本进行 fine-tuning，提供模型答案的比较，以增强透明度和显性化地处理偏见。

Sep, 2023

认知负荷下的补偿性偏差：降低大型语言模型中的选择偏差

大型语言模型（LLMs）（如 gpt-3.5-turbo 和 claude-instant-1.2）在解释和执行基于语义的任务方面发挥了重要作用。然而，这些模型天生存在的偏见，类似于人类的认知偏见，对它们的性能产生了负面影响。本研究关键地审查了这些偏见并量化了其对代表性列表选择任务的影响。通过进行一系列控制实验，控制温度、列表长度、对象身份、对象类型、提示复杂度和模型，从而使我们能够分离和测量偏见对选择行为的影响。我们的发现表明，偏见结构与模型强相关，对象类型调节了效应的幅度。存在较为显著的首位效应，使列表中的首个对象在输出中被过度代表。此外，当在选择任务中与守卫栏结合使用时，保证回答结构的提示工程方法可能会增加偏见并降低指令遵循性。当分离守卫栏步骤与列表抽样步骤时，偏见被消除，降低了每个个体任务的复杂性。本研究的意义是双重的，实践上提供了设计无偏 LLMs 应用的指南，理论上暗示了 LLMs 体验到了一种通过增加偏见来补偿的认知负荷。

Jan, 2024