BriefGPT.xyz
Ask
alpha
关键词
iterative refinement induced self-jailbreak
搜索结果 - 1
GPT-4 使用自述功能成功自我解锁
通过使用自我解释的迭代细化的对抗性提示,利用大语言模型的反射能力,本研究引入了一种名为 IRIS 的新方法来打破监狱,该方法将同一模型同时用作攻击者和目标,提高了破坏性,同时降低了查询次数,极大地改进了自动化、黑盒和可解释性的监狱打破效率,
→
PDF
2 months ago
Prev
Next