May, 2024

ConTrans: 通过概念移植进行弱到强对齐工程

TL;DR通过概念移植,我们提出了一种名为ConTrans的新框架,能够通过从源LLM对价值对齐的概念向量的细化与亚仿射变换,将其成功移植到目标LLM的残差流中,从而实现弱到强的对齐泛化和控制。