BriefGPT.xyz
Ask
alpha
关键词
optimizer selection
搜索结果 - 3
SOUL:解锁第二阶优化对 LLM 取消学习的力量
通过选择优化器,本研究揭示了第二阶优化在大型语言模型的遗忘中的重要性,并基于该观察开发了一个名为 SOUL 的基于第二阶修剪随机优化的遗忘框架,扩展了传统的一次性模型更新到动态的迭代遗忘过程,消除了影响数据对模型的影响,并在各种遗忘任务、模
→
PDF
2 months ago
ICCV
面向域一般化的平坦性感知最小化
基于损失平面平坦度的角度,我们提出了一种新颖的方法 Flatness-Aware Minimization for Domain Generalization(FAD),可以同时有效地优化零阶和一阶平坦度,从而改善领域泛化问题。我们通过理论
→
PDF
a year ago
基于 Transformer 模型的简单类型 lambda 演算类型推断:代码深度学习案例研究
本文探讨了使用 transformer 模型对 typed lambda 演算进行类型推导的问题,并对优化器的选择以及 warm-up 的影响进行了实验,发现 Adafactor 比 Adam 和 RAdam 更有效。
PDF
a year ago
Prev
Next