May, 2024

TrojFM: 面向超大规模基础模型的高效后门攻击

TL;DR我们提出了一种适用于非常大的基础模型的全新后门攻击方法 TrojFM,通过开发一种新的后门注入方法,使被后门化的模型在对输入进行隐藏表示时生成相似的表示,从而实现对非常大的基础模型的高效后门攻击。我们的攻击方法可以通过仅使用一个 A100 GPU 来启动,而且对最先进的防御方法具有强大的韧性,对关键超参数的变化也不敏感,同时大幅节省计算和内存资源消耗。