steering vectors | BriefGPT

关键词steering vectors

搜索结果 - 5

无副作用的驾驶：提高语言模型的部署后控制
减少最坏情况行为的方法，通过将合适的向量添加到模型隐藏状态，我们提出了 KL-then-steer (KTS) 技术，该技术通过首先训练模型来最小化斯坦离差 (KL)，然后再进行模型转向，可以防止原始 Llama-2-chat-7B 模型的
PDF15 days ago
大型语言模型的个性化引导：通过双向偏好优化实现多功能引导向量
通过双向偏好优化来产生更有效的转向向量，从而在多种开放生成任务中实现个性化控制，并在关键对齐场景中展示出卓越的转向效果以及多个向量同时应用时的协同效益。
PDFa month ago
用均值居中改进语言模型中的激活引导
通过应用均值中心化的思想，我们发现将与目标数据集相关的激活平均值减去所有训练激活的均值，可以得到有效的转向向量，这在广泛的上下文中可以轻松改善激活转向的有效性。
PDF7 months ago
激活增加：不经优化的引导语言模型
控制大型语言模型行为的问题已成为紧迫的开放问题。在本文中，我们提出了一种称为 Activation Addition (ActAdd) 的方法，通过在推理过程中修改激活来可预测地改变模型行为，并展示了其在 GPT-2 上的应用，以及其与微调
PDFa year ago
ACL从预训练语言模型中提取潜在的操纵向量
本研究提出一种新的控制文本生成方式，在不进行优化的情况下直接从预训练的语言模型解码器提取潜在向量。实验证明存在可用于控制的方向向量，并且可以用于 YELP 情感基准测试和文本相似性基准测试，反映句子的相似性。
PDF2 years ago