BriefGPT.xyz
Ask
alpha
关键词
causality-analysis
搜索结果 - 1
评估大型语言模型安全性的因果分析
这项研究提出了一个轻量级因果分析框架,应用于大型语言模型,分析其存在的安全问题,尤其是对抗性扰动和特洛伊攻击,并发现了对模型造成有害提示过拟合的现象,以及一种有效的特洛伊攻击方法。
PDF
7 months ago
Prev
Next