BriefGPT.xyz
Ask
alpha
关键词
attackers
搜索结果 - 4
大规模语言模型应用的词汇攻击
使用来自攻击模型的嵌入和优化过程插入模型词汇,我们证明了我们的方法可以成功劫持两个流行的开源大语言模型 Llama2 和 Flan-T5,并显示了我们的方法具有不易被察觉的特点,且仅需插入单个词汇即可进行攻击,我们还证明可以使用不同于目标模
→
PDF
3 months ago
AAAI
噪声安全游戏攻防交互模拟
为了提高防御者的战术优势,本文通过引入一种安全游戏框架,模拟了攻击者和防御者在各种不同知晓程度和情境下的决策方式,并探究了在真假报警间取得平衡的方法。
PDF
2 years ago
AAAI
社交网络中的多数意见扩散:一种对抗性方法
本文探讨一种新型的基于多数派观点扩散模型,研究在社交网络中基于营销活动的产品质量和技术创新做出大众观点的多数派观点的攻击和防御等问题。
PDF
4 years ago
对抗样本研究中的游戏规则动机
本文介绍如何通过建立人们更真实可靠的威胁模型,从而更好地保护机器学习在实际应用中的安全性。
PDF
6 years ago
Prev
Next