Aug, 2024

大型语言模型是优秀的攻击者:高效且隐蔽的文本后门攻击

TL;DR本研究解决了自然语言处理系统在外包数据收集过程中面临的文本后门攻击问题。提出了一种名为EST-Bad的新方法,利用大型语言模型,通过优化模型的内在缺陷、隐蔽地注入触发器和精心选择样本,显著提升了攻击效率和隐蔽性。研究结果表明,EST-Bad在各种文本分类器数据集上表现出竞争力的攻击性能与更高的隐蔽性。