BriefGPT.xyz
Ask
alpha
关键词
social-engineered attacks
搜索结果 - 1
往返翻译防御大型语言模型越狱攻击
通过往返翻译(RTT)方法防御大规模语言模型(LLM)上的社会工程攻击,提出了一种多功能、轻量级且可转移的算法,成功缓解了超过 70% 的攻击,并且减少了 MathsAttack 的攻击成功率近 40%。
PDF
5 months ago
Prev
Next