Jun, 2024

对大型语言模型进行可证修复或攻击的隐形编辑

TL;DR我们揭示了关于编辑大型语言模型的新方法和理论基础,展示了新理论如何用于评估模型的可编辑性以及揭示它们对以前未知的恶意攻击的敏感性。