BriefGPT.xyz
Ask
alpha
关键词
safety classifier
搜索结果 - 3
基于查询的对抗性提示生成
通过使用具有 API 访问的远程语言模型构建具有更高概率发出有害字符串的对抗性示例,我们改进了之前的工作,并验证了我们的攻击在 GPT-3.5 和 OpenAI 的安全分类器上的有效性。
PDF
5 months ago
大型语言模型的强大安全分类器:对抗性提示屏蔽
大型语言模型的安全性是一个重要问题,本研究提出了 Adversarial Prompt Shield(APS)这个轻量级模型,能够有效检测和抵御对抗抓取;同时,我们还引入了自动生成对抗训练数据集的新策略,命名为 Bot Adversaria
→
PDF
8 months ago
ACL
关于对话模型的安全性:分类法,数据集和基准
在人 - 机对话设定中,我们为对话安全性提出了一种专门捕捉不安全行为的分类法,重点在于对先前的探讨不足的上下文敏感性不安全性的关注,并编制了一个包含丰富上下文的不安全示例的数据集 DiaSafety,实验证明现有的安全保护工具严重失败。为此
→
PDF
3 years ago
Prev
Next