Sep, 2023

大型语言模型的知识清洗

TL;DR我们探索了一种知识消毒方法,用于减轻与大型语言模型(LLMs)相关的隐私问题。我们的方法通过微调模型,在查询特定信息时,促使其生成无害回答,如 “我不知道”。实验证实,我们的简单方法不仅最小化了特定知识泄漏,还保留了 LLM 的整体性能。这两个优势加强了对提取攻击的防御,并减少了产生幻觉等有害内容的排放。