BriefGPT.xyz
大模型
Ask
alpha
关键词
defense capabilities
搜索结果 - 1
对抗调整:为 LLMs 防御越狱攻击
通过优化包含对抗性提示及其安全响应的数据集,我们提出了一个两阶段的对抗调整框架,用于增强大型语言模型在防御能力方面的广义性,实验证明了我们方法的优越性,并展示了它作为可传输防御机制的潜力。
PDF
25 days ago
Prev
Next