BriefGPT.xyz
大模型
Ask
alpha
关键词
safety classifiers
搜索结果 - 2
ACL
自动对抗性发现用于安全分类器
安全分类器和对抗攻击是在线论坛(如社交媒体和聊天机器人)中减少毒性的关键,然而它们仍然容易受到新兴且数量众多的对抗攻击的影响。本文提出了一种自动对抗发现安全分类器的方法,以在以前未见的伤害维度上寻找新的攻击方法,以揭示分类器的新弱点。我们通
→
PDF
10 days ago
通过数据增强的参数高效微调改善安全分类器的少样本泛化能力
领域通用的少样本学习方法进行调优和数据增强,相较于传统方法,在社交化化学道德判断和毒性检测任务中提高了 7-17% 的 F1 分数和 9-13% 的 AUC。
PDF
8 months ago
Prev
Next