BriefGPT.xyz
大模型
Ask
alpha
关键词
unlearning techniques
搜索结果 - 4
通过遗忘减缓语言模型中的社会偏见
通过研究两种取消学习方法,本文在减少社会偏见时通过定量和定性分析实证表明,基于任务向量的否定方法在保持性能和困惑度较低的情况下优于分区对比梯度取消学习方法。在 LLaMA-27B 上,通过任务向量的否定方法将偏见分数降低了 11.8%。
PDF
15 days ago
评估 LLMs 中强化遗忘的八种方法
通过综合测试现有评估方法,我们对 Eldan and Russinovich(2023)的 “Who's Harry Potter” 模型进行了严格评估,发现它在 “熟悉度” 度量下表现良好,可靠地提取大量超越基准的知识,并与原始模型在 H
→
PDF
4 months ago
超越学习陷阱:通过渐进分阶段训练学习无法学习的样本
通过逐步的训练来有效防止模型在学习扰动特征时过拟合,从而防止第三方利用未授权的数据生成不可学习样本。
PDF
a year ago
选择性遗忘:关于在感染木马的机器学习模型中高效、高保真、盲目地抑制后门效应
本篇论文提出了一种名为 SEAM 的技术,能够在少量干净数据的情况下迅速进行已植入后门的模型的遗忘,从而使主要任务得到恢复,并在图像处理和自然语言处理任务上进行了实验验证。
PDF
2 years ago
Prev
Next