BriefGPT.xyz
Ask
alpha
关键词
attention probing
搜索结果 - 1
大型语言模型是否可以通过对抗方式改变用户偏好?
本研究从注意力探测、红队作战和白盒分析等多个角度,探讨预训练大型语言模型在用户喜好中的敌对行为,并针对 ChatGPT 和 GODEL 等对话模型提供红队样本,同时探究后者在非对抗性和对抗性环境下的注意力机制。
PDF
2 years ago
Prev
Next