Apr, 2024

透过对抗性压缩的视角重新思考 LLM 记忆化

TL;DR大型语言模型的记忆化问题对于数据使用提出了重要疑问,本文提出了一种用于评估记忆化的度量标准 Adversarial Compression Ratio (ACR),通过对比模型生成字符串和原始字符串的长度,探讨了记忆化的界定和局限,并展示了 ACR 如何应用于监测遗忘和合规性,从而用作判断模型使用数据条款是否被违反的实用工具和法律手段。