Aug, 2024

朝着鲁棒的知识遗忘:一种用于评估和提高大语言模型遗忘鲁棒性的对抗框架

TL;DR本研究解决了现有大语言模型在知识遗忘过程中容易受到对抗性查询攻击的问题。我们提出了动态遗忘攻击(DUA)框架,对模型的脆弱性进行评估,同时提出了潜在对抗遗忘(LAU)框架,采用最小-最大优化方法提高遗忘过程的鲁棒性。实验表明,我们的方法显著提升了遗忘有效性超过53.5%,有效抵御了知识再显现。