Jun, 2024

关于精细化语言模型中的后门攻击

TL;DR插入语言模型中的木马可以在对其进行细化以确定产品评价情感等特定应用时进行。本文阐明并实证探索数据污染威胁模型的各种变体,然后实证评估两种简单的防御策略,针对不同的防御场景。最后,对相关的攻击和防御进行简要调查。