Jul, 2024
学会拒绝:减少LLM中的隐私风险
Learning to Refuse: Towards Mitigating Privacy Risks in LLMs
TL;DR该研究提出了一种 Name-Aware Unlearning Framework (NAUF) 隐私保护方法,旨在通过实现机器遗忘学习 (MU) 技术来保护特定个体的个人数据,同时兼顾模型对其他非关联个体的问题回答能力,并通过大量实验证明,NAUF 方法在平均遗忘率方面表现出色,超越最佳基准方法 5.65 分,有效地保护目标个体的个人数据同时维持模型的普适性能。