Jun, 2024

文本反学习带来了一种虚假的反学习感知

TL;DR通过借助先前和后续模型访问,我们提出了文本消除泄漏攻击(TULA),从而证明机器遗忘在语言模型中会扩大知识泄漏的风险,包括黑盒和白盒场景下推断未学习数据的能力增强,以及通过白盒访问直接重构未学习数据的准确性。这项工作首次揭示了语言模型中的机器遗忘逆向创造了更大的知识风险,并鼓励更安全的遗忘机制的发展。