BriefGPT.xyz
Ask
alpha
关键词
llm jailbreak defense
搜索结果 - 1
SelfDefend: LLMs 能够以实用方式自我防护免受越狱攻击
这篇论文介绍了一种名为 SelfDefend 的通用 LLM 监狱破解防御框架,通过在正常堆栈中建立影子 LLM 防御实例并与目标 LLM 实例协同工作来保护目标 LLM 实例。测量结果表明,SelfDefend 可使 GPT-3.5 的攻
→
PDF
a month ago
Prev
Next