May, 2024

评估大型语言模型的基于检索上下文学习的对抗鲁棒性

TL;DR通过引入检索增强联系学习方法,利用检索器提取语义相关示例作为演示,提高模型对测试样本的攻击稳健性,并引入一种无需训练的对抗防御方法 DARD,通过丰富示例池来改进模型性能和稳健性。