BriefGPT.xyz
大模型
Ask
alpha
关键词
jailbreak challenges
搜索结果 - 2
如何请求决定一切:针对越狱攻击的简单黑盒方法
通过使用以 ChatGPT 为目标的简单黑盒方法,本研究有效地生成越过伦理规定的提示,突破了现有方法的复杂性和计算成本的限制,该方法通过 LLM 自身将有害的提示迭代地重写为无害表达式,该研究结果表明,创建有效的越狱提示比以前认为的更简单,
→
PDF
6 months ago
大规模语言模型中的多语言越狱挑战
大型语言模型(LLMs)存在潜在的安全隐患,因此需要发展预防措施。本研究揭示了 LLMs 内存在的多语言破解挑战,并针对意外和恶意的风险场景进行了探讨。实验结果显示,在多语言环境中,通过自卫框架进行训练可以显著减少 LLMs 生成的不安全内
→
PDF
9 months ago
Prev
Next