activation steering | BriefGPT

关键词activation steering

搜索结果 - 5

提问者是谁？用户人设与潜在不一致的机制
我们的研究揭示了现象的运作机制，发现模型的安全性调优仍存在潜在的错位能力，尽管已经进行了提高。我们证明了即使模型的生成是安全的，有害内容仍然可以存在于隐藏表示中，并且可以通过从较早层进行解码来提取。我们还发现，模型是否泄露此类内容在很大程度
PDF17 days ago
代码语言模型中强化的类型预测激活控制
通过激活控制技术，我们可以提高编程预训练模型的鲁棒性，使其在语法上更加灵活，进而提高类型预测的准确性，并揭示了预训练模型可能在不同编程语言之间进行类型知识迁移的可能性。
PDF3 months ago
扩展激活引导至广泛技能和多重行为
目前的大型语言模型具有危险的能力，这些能力在将来可能变得更加问题。激活引导技术可以用来减少这些能力带来的风险。本文通过调查激活引导在广泛技能和多种行为方面的功效，首先比较了减少整体编码能力和 Python 特定能力对绩效的影响，发现调整更广
PDF4 months ago
通过激活转向技术研究 Llama 2 Chat 中的偏见表达
大型语言模型中存在的社会偏见，尤其是与性别、种族和宗教有关的偏见，通过激活导向法得以探测和缓解，而强化学习反馈似乎会增加模型对不同形式社会偏见的相似度，这对于提供红队（进攻方）策略以及整合拒绝向量的重要性提供了有价值的见解。
PDF5 months ago
用均值居中改进语言模型中的激活引导
通过应用均值中心化的思想，我们发现将与目标数据集相关的激活平均值减去所有训练激活的均值，可以得到有效的转向向量，这在广泛的上下文中可以轻松改善激活转向的有效性。
PDF7 months ago