BriefGPT.xyz
Ask
alpha
关键词
selfdefend
搜索结果 - 2
SelfDefend: LLMs 能够以实用方式自我防护免受越狱攻击
这篇论文介绍了一种名为 SelfDefend 的通用 LLM 监狱破解防御框架,通过在正常堆栈中建立影子 LLM 防御实例并与目标 LLM 实例协同工作来保护目标 LLM 实例。测量结果表明,SelfDefend 可使 GPT-3.5 的攻
→
PDF
a month ago
LLMs 在实践中可以自我防御破解:一篇展望性论文
Jailbreaking is an emerging adversarial attack that bypasses the safety alignment deployed in off-the-shelf large langua
→
PDF
4 months ago
Prev
Next