Feb, 2024

机器中的低语:LLM 整合系统中的保密性

TL;DR本文提出了一种系统评估 LLM 集成系统中机密性的方法,通过形式化 “秘密密钥” 游戏来比较模型的脆弱性和不同防御策略的有效性,发现当前的防御策略在攻击策略方面缺乏泛化能力,并提出了一种受对抗训练启发的鲁棒性微调方法,有效降低了攻击成功率并提高了系统对未知攻击的弹性。