BriefGPT.xyz
Ask
alpha
关键词
harmful knowledge
搜索结果 - 2
安全的消去学习:一个出人意料地有效且具有普适性的解决方案,用于防御越狱攻击
将有害知识在 LLM 中直接取消学习是一种有效防御越狱攻击的方法,实验证实其具有意外的普适性,将攻击成功率从 82.6%降低到 7.7%。
PDF
3 days ago
通过机器遗忘实现更安全的大型语言模型
通过选择性知识否定消除(SKU)框架,我们可以有效地识别和去除大语言模型中的有害知识,同时保持模型对正常提示的有效性。
PDF
5 months ago
Prev
Next