May, 2025
OBLIVIATE:大语言模型的鲁棒性和实用性机器遗忘技术
OBLIVIATE: Robust and Practical Machine Unlearning for Large Language
Models
TL;DR本研究解决了大语言模型可能会记住敏感、版权或有毒内容的问题。提出的OBLIVIATE框架通过提取目标数据、构建保留集和应用定制损失函数来实现针对性数据的去除,同时保持模型的实用性。实验结果表明,该方法有效抵御成员推断攻击,最小化对保留数据的影响,展示了其在多种场景下的鲁棒性。