Feb, 2024
选择性遗忘:推进机器遗忘技术和语言模型评估
Selective Forgetting: Advancing Machine Unlearning Techniques and
Evaluation in Language Models
TL;DR该研究旨在调查机器遗忘(MU),这是一个新兴领域,专注于解决神经模型意外保留个人或敏感数据的问题。本文介绍了一种新的方法,以实现语言模型内的精确选择性遗忘,并提出了两个创新的评估指标:敏感信息提取可能性(S-EL)和敏感信息记忆准确性(S-MA),用于衡量消除敏感信息的有效性。为了加强遗忘框架,提出了一种有效的敏感区域注释方法,包括在线和离线策略。在线选择机制利用语言概率得分确保计算效率,而离线注释则采用基于大型语言模型(LLMs)的强大两阶段过程。