Jun, 2024
对大型语言模型进行可证修复或攻击的隐形编辑
Stealth edits for provably fixing or attacking large language models
Oliver J. Sutton, Qinghua Zhou, Wei Wang, Desmond J. Higham, Alexander N. Gorban...
TL;DR我们揭示了关于编辑大型语言模型的新方法和理论基础,展示了新理论如何用于评估模型的可编辑性以及揭示它们对以前未知的恶意攻击的敏感性。