Jun, 2024

PaCE: 大型语言模型的简约概念工程

TL;DR大型语言模型(LLMs)用于各种任务,但其输出可能包含有害信息、种族主义或性别歧视性语言以及幻觉。因此,我们提出了一种新的激活工程方法,即 Parsimonious Concept Engineering(PaCE),通过构建一个概念字典来准确表示 LLMs 的激活,并通过稀疏编码从激活中去除有害组件,以实现与对齐目标的一致行为。通过进行实验,我们展示了 PaCE 在响应解毒、忠诚度提升和情感修订等任务上达到了最先进的对齐性能,并保持了语言能力。