BriefGPT.xyz
大模型
Ask
alpha
关键词
universal adversarial triggers
搜索结果 - 3
ACL
LinkPrompt:基于提示的语言模型的自然且通用的对抗攻击
LinkPrompt 是一种通过基于梯度的波束搜索算法生成的自然的通用对抗触发器(UATs),能够有效地攻击目标预训练语言模型(PLMs)和基于提示的微调模型(PFMs)并保持触发器标记中的自然性。
PDF
3 months ago
生成具有标签内聚力和良好形式的对抗性主张
本文主要研究如何生成对于事实核查系统具有对抗性的攻击,使其保持着地面事实的意义和语义的有效性,为此采用了 HotFlip 攻击算法与条件语言模型相结合的方法,生成出了一批具有方向性和语义有效性的攻击。
PDF
4 years ago
EMNLP
通用对抗触发器针对自然语言处理的攻击与分析
本篇论文旨在寻找普适的对抗触发器 (universal adversarial triggers),使用梯度导向的搜索过程寻找跨任务短小的触发序列,并展示了触发序列的强大攻击性能。触发序列即使在输入无关的情况下,对模型的全局行为也提供了一种
→
PDF
5 years ago
Prev
Next