关键词activation engineering
搜索结果 - 2
- ACL用于引导生成式大型语言模型的风格向量
本研究通过在文本生成过程中向隐藏层的激活添加风格向量,探索将大型语言模型 (LLMs) 的输出引导到特定风格 (如情感、情绪或写作风格) 的策略。通过一系列实验,我们展示了使用这种风格向量进行激活工程对生成文本的风格产生影响的有效性和可调节 - 激活增加:不经优化的引导语言模型
控制大型语言模型行为的问题已成为紧迫的开放问题。在本文中,我们提出了一种称为 Activation Addition (ActAdd) 的方法,通过在推理过程中修改激活来可预测地改变模型行为,并展示了其在 GPT-2 上的应用,以及其与微调