BriefGPT.xyz
Ask
alpha
关键词
model editing methods
搜索结果 - 3
ROME 的倒台:对 LLMs 在模型编辑中崩溃的理解
尽管模型编辑方法取得了显著进展,但在实际场景中应用仍然具有挑战性,因为它们经常导致大型语言模型发生崩溃。本文研究了这种崩溃的根本原因,并通过广泛的分析,确定了导致崩溃的两个主要因素。为了验证我们的分析,我们提出了一种简单而有效的方法:在编辑
→
PDF
19 days ago
模型编辑用于社会去偏倚的潜力和挑战
大型语言模型具有刻板印象偏见,模型编辑方法能够缓解这一问题,本研究通过综合性研究从多个角度评估了七种模型编辑算法在刻板偏见消除中的潜力和挑战,同时提出了两种简单有效的方法以提升刻板偏见的编辑效果。
PDF
5 months ago
LLMs 下的敏感信息能够被删除吗?防御抽取攻击的目标
提出了攻击和防御框架用于直接删除模型权重中的敏感信息,研究表明即使使用先进的模型编辑方法,也很难真正从语言模型中删除敏感信息,并提供了一些防御方法来抵御抽取攻击。
PDF
9 months ago
Prev
Next