BriefGPT.xyz
大模型
Ask
alpha
关键词
toxictrap
搜索结果 - 1
ACL
构建鲁棒的毒性预测模型
最近的自然语言处理文献很少关注毒性语言预测器的稳健性,而这些系统最有可能在对抗性环境中使用。本文提出了一种新的对抗性攻击方法 ToxicTrap,通过引入小的单词级扰动来欺骗最先进的文本分类器,将有毒的文本样本预测为良性。ToxicTrap
→
PDF
3 months ago
Prev
Next