BriefGPT.xyz
Ask
alpha
关键词
model activations
搜索结果 - 3
理解越狱成功:大型语言模型中潜空间动力学的研究
对话式大型语言模型的研究中发现,监狱破解技术可以绕过模型的安全保障,通过分析模型对不同类型的监狱破解输入的激活情况,发现可以从一类监狱破解中提取出能够减少其他类监狱破解效果的监狱破解向量,而这或许意味着不同类型的有效的监狱破解通过相似的内部
→
PDF
23 days ago
朝着基于原则的稀疏自编码器的解释性和控制性评估
我们提出了一个评估特征字典的框架来解决解释性中地实际问题缺乏基本事实的问题,并应用该框架到间接对象识别任务中使用 GPT-2 Small,发现虽然稀疏自编码器可以捕捉到可解释的特征,但是它们对于控制模型的成功程度不如受监督的特征,并观察到在
→
PDF
2 months ago
稳定各向异性正则化
本文提出一种新的正则化方法 I-STAR,该方法可以在训练过程中增加或减少嵌入空间中的等向性水平,并发现在大多数任务和模型中减少等向性可以改善性能。
PDF
a year ago
Prev
Next