大型语言模型对齐的光谱激活编辑

May, 2024

大型语言模型对齐的光谱激活编辑

Spectral Editing of Activations for Large Language Model Alignment

Yifu Qiu, Zheng Zhao, Yftah Ziser, Anna Korhonen, Edoardo M. Ponti...

TL;DR大型语言模型经常表现出不良行为，本研究提出了一种新的推理时编辑方法，即激活的频谱编辑（SEA），通过将输入表示投影到与积极示范具有最大协方差方向，同时最小化与消极示范具有协方差的方向，有效地缓解了生成虚假或有偏差内容的问题。

Abstract

large language models (LLMs) often exhibit undesirable behaviours, such as generating untruthful or biased content. Editing their internal representations has been shown to be effective in mitigating such behavio

large language models undesirable behaviours editing method spectral editing of activations truthfulness and bias

发现论文，激发创造

医学大型语言模型的事实知识和解释能力编辑

提出了两项模型编辑研究并在医学领域进行了验证，同时观察到当前模型编辑方法在医学知识的专业化和复杂性方面存在困难。因此，提出了一种用于医学模型编辑的新型分层可扩展适配器策略 MedLaSA。通过因果追踪来确定神经元中知识的准确位置，并在 LLMs 的密集层引入可扩展适配器，这些适配器基于相应的特定知识分配缩放值。在医疗 LLMs 上进行的大量实验证明了 MedLaSA 的编辑效率，且不影响未编辑的无关知识。

Feb, 2024

自适应激活导向：无需调整的多种幻觉类别 LLM 真实性改进方法

使用适应性激活引导（ACT）方法，可以通过调整大型语言模型（LLMs）的激活方向，在推理过程中提高生成内容的真实性。ACT 方法通过利用多样化的引导向量并自适应地调整引导强度，有效应对各种类型的虚构现象。在多种模型中附加应用 ACT 后，如 LLaMA，LLaMA2，Alpaca，Vicuna 和 LLaMA2-Chat，其真实性显著提高（分别提升 142％，24％，36％，28％和 19％）。此外，我们还验证了 ACT 在更大规模模型（13B，33B，65B）上的可扩展性，突显 ACT 对大型语言模型的适应性。

May, 2024

模型编辑用于社会去偏倚的潜力和挑战

大型语言模型具有刻板印象偏见，模型编辑方法能够缓解这一问题，本研究通过综合性研究从多个角度评估了七种模型编辑算法在刻板偏见消除中的潜力和挑战，同时提出了两种简单有效的方法以提升刻板偏见的编辑效果。

Feb, 2024

学习编辑：将语言模型与知识编辑对齐

知识编辑技术在大型语言模型中的应用及性能表现。

Feb, 2024

用表示编辑来对齐大型语言模型：一个控制的观点

通过表示编辑的方法，提出了一种通过在预训练的自回归大型语言模型上引入外部控制信号，以实现特定目标对齐的方法，实验证明该方法在测试时间上优于现有的测试时间对齐技术，并且相对于微调方法需要较少的资源。

Jun, 2024

在没有主题标签的 LLM 中编辑任意命题

使用梯度追踪（GT）和一种简单快速的定位方法，本文介绍了一种新的大语言模型（LLM）编辑方法，使其能编辑任意命题而不仅仅是二元命题，并且无需主语标签，实验结果表明该方法在无主语标签的情况下也能达到接近最先进的方法的编辑性能；另外，还引入了一个新的数据集，名为 Factual Accuracy Classification Test（FACT），该数据集包含非二元命题，对于非通用主语标签的情况，显示出了我们的方法可以在 FACT 上进行编辑。

Jan, 2024

LLM 激活中的幻觉弱监督检测

我们提出了一种审计方法，用于确定大型语言模型中是否编码了诸如幻觉等模式，并可向下游任务传播。我们引入了一种弱监督的审计技术，使用子集扫描方法来检测预训练模型中 LLM 激活的异常模式。重要的是，我们的方法不需要先验知识来了解模式的类型，而是依赖于在测试期间不含异常的参考数据集。此外，我们的方法还可以确定编码这些模式的关键节点，这可能为细调特定子网络以减轻偏见提供关键见解。我们引入了两种新的扫描方法来处理可能偏离预期分布的异常句子中的 LLM 激活。我们的结果证实了 BERT 在编码幻觉方面内部能力有限，而 OPT 似乎能够在内部编码幻觉信息。重要的是，我们的扫描方法在没有事先暴露于虚假陈述的情况下，表现出与完全监督的离群样本分类器相当的性能。

Dec, 2023

通过基于激活的置信度校准和引导解码增强语言模型的真实性

在本文中，我们首先提出一种基于激活的校准方法 ActCab，它在语言模型的最后一层激活上训练一个线性层，能更好地捕捉知识的表征。在 ActCab 的基础上，我们进一步提出了一种以置信度为指导的解码策略 CoDec，以从语言模型中得到置信度高的真实答案。通过在五个热门问答基准上进行评估，ActCab 在校准性能方面优于所有竞争基准，例如平均期望校准误差减少了最高 39%。进一步对 CoDec 进行的实验证明，在挑战性问答数据集（如 TruthfulQA）上提升了几个语言模型的真实性，突显了置信度信号在增强真实性方面的价值。

Jun, 2024

LASPA：用于快速训练无需标记的单图像编辑的潜在空间对齐

我们提出了一种新颖的，无需训练的方法，用于实现基于扩散模型的真实图像的文本编辑。我们的方法利用潜在空间对齐（LASPA）有效地保留图像细节，通过扩散过程与参考图像进行空间引导，从而实现语义上连贯的编辑。该方法无需复杂的优化和昂贵的模型微调，与之前的方法相比，编辑速度显著提高。此外，我们的方法避免了大型微调模型的存储要求。这些优势使得我们的方法特别适用于移动设备和需要快速响应时间的应用。尽管简单快速，我们的方法在用户研究中获得了 62-71％的偏好，并且在模型编辑强度和图像保护评分方面表现显著优越。

Mar, 2024

大规模基于记忆的模型编辑

介绍了一种基于 Semi-Parametric Editing with a Retrieval-Augmented Counterfactual Model (SERAC) 的模型编辑方法，具备内存高、编辑表达能力强的特点，能够高效地处理基于问答、事实核查和对话生成的 3 种具有挑战性的语言模型编辑问题。

Jun, 2022