BriefGPT.xyz
大模型
Ask
alpha
关键词
adversarial triggers
搜索结果 - 3
通用对抗触发器并非通用
针对通过优化模型找到的诱发不安全响应的标记序列,即对抗触发器,我们研究了它们的转移能力、鲁棒性以及优化方法对模型的影响,发现对齐的偏好优化模型(APO)极难被破解,然而对齐的微调模型(AFT)对对抗触发器非常敏感,并且大部分针对 AFT 模
→
PDF
2 months ago
ACL
探究基于提示学习范式的普遍性漏洞
本文研究了 Prompt-based learning 模式的普适漏洞,发现加入特定的触发器可以完全控制和降低其性能,并提出了缓解攻击方法的潜在解决方案。
PDF
2 years ago
EMNLP
语言生成中的可控偏见
我们提出了一种通用方法来控制自然语言生成中的社会偏见。通过对特定人口群体进行输入提示的提及,我们开发了一种诱发社会偏见的方法,并对两种情况进行了分析:在一种人口群体中诱发负面偏见,同时在另一种人口群体中诱发正面偏见,并使偏见在不同人口群体之
→
PDF
4 years ago
Prev
Next