BriefGPT.xyz
Ask
alpha
关键词
jambench
搜索结果 - 1
通过密码字符对大型语言模型进行越狱以对抗审核管控
引入 JAMBench 作为一个有害行为基准测试,通过 160 个手工制作的指令来触发和评估适度保护措施;提出了 JAM 方法,通过越过输入级别的过滤器和生成密文字符来绕过输出级别的过滤器,攻击适度保护措施。经过对四个 LLMs 的广泛实验
→
PDF
a month ago
Prev
Next