BriefGPT.xyz
大模型
Ask
alpha
关键词
black-box method
搜索结果 - 2
通过反向获取 LLM 输出来提取提示
给定一个语言模型输出,我们考虑语言模型反演的问题:我们寻找生成这些输出的提示信息。我们开发了一种新的黑盒方法 output2prompt,它能够学习在不访问模型的 logits 或使用对抗性或越狱查询的情况下提取提示信息。与以前的工作不同,
→
PDF
a month ago
如何请求决定一切:针对越狱攻击的简单黑盒方法
通过使用以 ChatGPT 为目标的简单黑盒方法,本研究有效地生成越过伦理规定的提示,突破了现有方法的复杂性和计算成本的限制,该方法通过 LLM 自身将有害的提示迭代地重写为无害表达式,该研究结果表明,创建有效的越狱提示比以前认为的更简单,
→
PDF
6 months ago
Prev
Next