BriefGPT.xyz
Apr, 2024
大规模语言模型应用的词汇攻击
Vocabulary Attack to Hijack Large Language Model Applications
HTML
PDF
Patrick Levi, Christoph P. Neumann
TL;DR
使用来自攻击模型的嵌入和优化过程插入模型词汇,我们证明了我们的方法可以成功劫持两个流行的开源大语言模型Llama2和Flan-T5,并显示了我们的方法具有不易被察觉的特点,且仅需插入单个词汇即可进行攻击,我们还证明可以使用不同于目标模型的模型进行攻击。
Abstract
The fast advancements in
large language models
(LLMs) are driving an increasing number of applications. Together with the growing number of users, we also see an increasing number of
attackers
who try to outsmart
→