BriefGPT.xyz
Ask
alpha
关键词
attribution-based pipeline
搜索结果 - 1
ACL
通过归因防御插入式文本后门攻击
提出了 AttDef 模型,该模型基于属性和预训练语言模型,可以有效防御 BadNL 和 InSent 两种插入型中毒攻击, 其中通过属性分析将大于特定阈值的词作为潜在的触发器,同时利用外部预训练语言模型鉴别是否有毒,该方法在四个基准数据集
→
PDF
a year ago
Prev
Next