May, 2024

GPT-4 使用自述功能成功自我解锁

TL;DR通过使用自我解释的迭代细化的对抗性提示,利用大语言模型的反射能力,本研究引入了一种名为 IRIS 的新方法来打破监狱,该方法将同一模型同时用作攻击者和目标,提高了破坏性,同时降低了查询次数,极大地改进了自动化、黑盒和可解释性的监狱打破效率,并为可解释性的监狱打破方法树立了新的标准。