ICMLJul, 2023

从数据泄露和遗忘中对法律的启示

TL;DR大型语言模型(LLMs)在隐私方面存在关注,因为它们会记忆训练数据(包括个人可识别信息(PII)如电子邮件和电话号码),并在推理过程中泄露。现有工作关注度较低,本研究表明精调模型不仅会泄露其训练数据,还会泄露在预训练阶段记忆的预训练数据(和 PII)。通过精调模型来进行预训练数据的遗忘和泄露使新的数据点变得容易被提取,给使用 LLMs 提供服务的公司带来了重大的隐私和法律问题。我们希望本研究能够在人工智能和法律界引发跨学科讨论,并针对这些问题制定相应的政策。