BriefGPT.xyz
Ask
alpha
关键词
adversarial behavior
搜索结果 - 3
利用 LLM 量化
利用量化技术减少大型语言模型(LLM)的内存使用,但本文首次从安全角度研究了量化技术的负面影响,揭示了广泛使用的量化方法可能被利用以产生有害的量化 LLM,从而欺骗用户部署恶意量化模型。
PDF
a month ago
探索大型语言模型的对抗能力
调查了大型语言模型(LLMs)是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施,实验结果表明,LLMs 成功地找到了对抗性扰动,有效地破坏了仇恨言论检测系统,这对依赖 LLMs 的(半)自主系统与现有系统和安全措施的交互带来了重
→
PDF
5 months ago
大型语言模型是否可以通过对抗方式改变用户偏好?
本研究从注意力探测、红队作战和白盒分析等多个角度,探讨预训练大型语言模型在用户喜好中的敌对行为,并针对 ChatGPT 和 GODEL 等对话模型提供红队样本,同时探究后者在非对抗性和对抗性环境下的注意力机制。
PDF
2 years ago
Prev
Next