BriefGPT.xyz
Ask
alpha
关键词
migu
搜索结果 - 1
解锁语言模型中的持续学习能力
通过 L1 归一化的输出幅度分布来约束梯度更新过程,我们提出了一种无需回放和任务标签的方法 MIGU(基于幅度的渐进学习梯度更新),以释放语言模型的内在连续学习能力。实验证明 MIGU 对于所有三种语言模型架构(T5,RoBERTa 和 L
→
PDF
15 days ago
Prev
Next