BriefGPT.xyz
大模型
Ask
alpha
关键词
harm dimensions
搜索结果 - 1
ACL
自动对抗性发现用于安全分类器
安全分类器和对抗攻击是在线论坛(如社交媒体和聊天机器人)中减少毒性的关键,然而它们仍然容易受到新兴且数量众多的对抗攻击的影响。本文提出了一种自动对抗发现安全分类器的方法,以在以前未见的伤害维度上寻找新的攻击方法,以揭示分类器的新弱点。我们通
→
PDF
10 days ago
Prev
Next