ICMLMay, 2024

超越协助和无害性:通过人物内文学习从大型语言模型中引发多样行为

TL;DR大规模语言模型在大量文本语料库上进行训练,这些文本语料库编码了各种个性特质。本文提出了一种新的基于贝叶斯推断的个性提取框架 PICLe,旨在使语言模型的行为与目标个性相一致。通过与基准方法在三个当代语言模型上进行广泛比较,我们证明了 PICLe 的有效性。