PaCE: 大型语言模型的简约概念工程

Jun, 2024

PaCE: 大型语言模型的简约概念工程

PaCE: Parsimonious Concept Engineering for Large Language Models

Jinqi Luo, Tianjiao Ding, Kwan Ho Ryan Chan, Darshan Thaker, Aditya Chattopadhyay...

TL;DR大型语言模型（LLMs）用于各种任务，但其输出可能包含有害信息、种族主义或性别歧视性语言以及幻觉。因此，我们提出了一种新的激活工程方法，即 Parsimonious Concept Engineering（PaCE），通过构建一个概念字典来准确表示 LLMs 的激活，并通过稀疏编码从激活中去除有害组件，以实现与对齐目标的一致行为。通过进行实验，我们展示了 PaCE 在响应解毒、忠诚度提升和情感修订等任务上达到了最先进的对齐性能，并保持了语言能力。

Abstract

large language models (LLMs) are being used for a wide variety of tasks. While they are capable of generating human-like responses, they can also produce undesirable output including potentially harmful informati

large language models alignment methods undesirable output parsimonious concept engineering state-of-the-art alignment performance

发现论文，激发创造

对防止生成有害信息而言，仅靠对齐是不够的：一个精神分析的视角

我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源，质疑仅仅依赖复杂的对齐方法的有效性，并进一步主张将模态概念与传统的非模态概念相结合，为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。

Nov, 2023

LEACE：封闭形式下的完美线性概念消除

本文介绍了一种名为 LEAst-squares Concept Erasure (LEACE) 的闭合形式方法，它可用于提高模型的公平性和可解释性，在大型语言模型中应用了 concept scrubbing 技术，以消除目标概念信息并降低 BERT 嵌入中的性别偏见。

Jun, 2023

扩散模型中的大规模概念抹除

MACE 是一种用于大规模文本到图像扩散模型的微调框架，旨在通过消除不想要的概念来防止模型生成具有有害或误导性内容的图像，并通过使用多个 LoRA 相互干扰的方式，在处理多个概念时取得了广泛的成功。

Mar, 2024

大型语言模型对齐的光谱激活编辑

大型语言模型经常表现出不良行为，本研究提出了一种新的推理时编辑方法，即激活的频谱编辑（SEA），通过将输入表示投影到与积极示范具有最大协方差方向，同时最小化与消极示范具有协方差的方向，有效地缓解了生成虚假或有偏差内容的问题。

May, 2024

线性对抗概念抹除

提出了一种通过线性极小极大博弈模型来定位和清空文本中的线性子空间，以防止线性预测器恢复与偏见相关的概念，该方法可以减轻内在和外在因素造成的偏见。

Jan, 2022

基于知识引导提示的因果感知概念提取

本文提出一种基于结构性因果模型 (SCM) 的知识引导提示，以减轻 PLM 提取过程中的概念偏见，并在多语言知识图谱数据集上展示了该提示的有效性。

May, 2023

万灵草: LLMs 的 Pareto 对齐通过偏好适应

Panacea 是一种创新的方法，将对齐视为多维偏好优化问题，使用奇异值分解（SVD）的低秩适应来引导模型行为，从而无需进一步调整，实现了有效和高效地对齐模型以适应多样化和复杂的人类偏好。

Feb, 2024

大型语言模型中对齐的基本限制

本文提出了一种名为行为期望范围（BEB）的理论方法，用于正式研究大型语言模型对齐的几种固有特性和限制，揭示了 LMM 对齐的根本局限性，并凸显了确保 AI 安全的可靠机制的必要性。

Apr, 2023

并行上下文编码的长文本语言建模

通过引入上下文扩展并行编码（CEPE）框架，可以将现有的仅解码的大型语言模型（LLMs）的上下文窗口扩展，使其能够更有效地处理长输入并且在检索增强应用中表现优异。

Feb, 2024

ConTrans: 通过概念移植进行弱到强对齐工程

通过概念移植，我们提出了一种名为 ConTrans 的新框架，能够通过从源 LLM 对价值对齐的概念向量的细化与亚仿射变换，将其成功移植到目标 LLM 的残差流中，从而实现弱到强的对齐泛化和控制。

May, 2024