BriefGPT.xyz
大模型
Ask
alpha
关键词
automated attacks
搜索结果 - 2
羊驼对抗维昆纳:利用 LLMs 揭示 LLMs 的记忆
我们介绍了一种黑盒提示优化方法,利用攻击者 LLM 代理来揭示受害者代理中比直接使用训练数据作为提示目标模型所揭示的更高水平的记忆,我们使用迭代的拒绝抽样优化过程来找到具有两个主要特征的基于指令的提示,即 (1) 最小程度地与训练数据重叠,
→
PDF
4 months ago
可扩展和可迁移的语言模型黑盒越狱通过角色调制
探讨了人设调节作为黑盒越狱方法,用于引导目标模型具备遵循有害指令的个性。我们利用自动生成的越狱命令展示了多种有害完成操作,包括合成甲基苯丙胺、制造炸弹和洗钱的详细指南。这些自动化攻击在 GPT-4 中的有害完成率为 42.5%,是调节之前(
→
PDF
8 months ago
Prev
Next