BriefGPT.xyz
Ask
alpha
关键词
instructed dishonesty
搜索结果 - 1
在 Llama 中定位撒谎:通过提示、探究和修补解析对真假问题上的指导诚实行为
通过对大型语言模型进行研究,本文探究了指示性不诚实,即明确要求 LLaMA-2-70b-chat 撒谎,通过提示工程方法找到了最能引起撒谎行为的提示语,并使用机械性可解释性方法定位了网络中发生这种行为的位置,在这五个层中找出 46 个特别重
→
PDF
7 months ago
Prev
Next