Mar, 2024

扩展激活引导至广泛技能和多重行为

TL;DR目前的大型语言模型具有危险的能力,这些能力在将来可能变得更加问题。激活引导技术可以用来减少这些能力带来的风险。本文通过调查激活引导在广泛技能和多种行为方面的功效,首先比较了减少整体编码能力和 Python 特定能力对绩效的影响,发现调整更广泛的技能与调整更狭窄的技能具有竞争力;其次,我们引导模型变得更加短视和追逐财富等其他行为。在我们的实验中,将多种行为的调整向量合并为一个调整向量的方法基本上不成功。另一方面,同时在模型的不同位置插入个别的调整向量是有前景的。