BriefGPT.xyz
Ask
alpha
关键词
automatic prompt reconstruction
搜索结果 - 1
DrAttack: 强大的 LLM 越狱程序的提示分解与重构
该研究论文提出了一种自动提示分解和重构框架(DrAttack),通过将恶意提示分解为子提示,并通过上下文学习和同义词搜索来实现重新组装,从而有效地模糊其恶意意图,以提高大语言模型的入侵成功率。在多个开源和闭源大语言模型上的实证研究表明,Dr
→
PDF
4 months ago
Prev
Next