Sep, 2023

LLMs 下的敏感信息能够被删除吗?防御抽取攻击的目标

TL;DR提出了攻击和防御框架用于直接删除模型权重中的敏感信息,研究表明即使使用先进的模型编辑方法,也很难真正从语言模型中删除敏感信息,并提供了一些防御方法来抵御抽取攻击。