弹性权重整合中的二次惩罚
弹性变分持续学习与权重保持的混合模型可以有效地缓解灾难性遗忘,并能更好地捕捉模型参数与任务特定数据之间的依赖关系。在五个可分辨任务上进行评估,该模型在领域增量和任务增量学习场景中持续优于现有基线模型。
Jun, 2024
本文研究了神经机器翻译中的无监督预训练方法,使用 Elastic Weight Consolidation 对双向编码器和解码器进行初始化,通过 fine-tune 来避免原始语言建模任务的遗忘,并将其与以前的正则化工作进行比较,结果表明使用这种方法可以快速收敛而且不需要原始未标记的数据。
Oct, 2020
提出了一个基于 Elastic Weight Consolidation 并基于上游任务信息的 Sequential Domain Adaptation 框架,来解决在不同领域上 sentiment analysis 同时训练时 catastrophic forgetting 的问题,并在实验中证明了该框架的有效性。
Jul, 2020
通过重新参数化神经网络中的 Fisher 信息矩阵,结合 Elastic Weight Consolidation 技术,实现解决序列任务学习中的灾难性遗忘问题,并在 MNIST、CIFAR-100、CUB-200 和 Stanford-40 数据集上进行实验证明,我们的方法明显改善了标准 Elastic Weight Consolidation 的结果,在不遗忘的连续任务学习中达到了同等竞争水平。
Feb, 2018
本文探究 EWC 算法对抗恶意攻击的漏洞,发现通过在训练中引入微小的错误信息,恶意攻击者能够逐步地、故意地让模型遗忘数据,从而掌控模型。我们展示了针对 MNIST 数据集不同变种的后门攻击,并证明只需要在不到 1% 的训练数据中注入恶意样本,即可轻松破坏神经网络的记忆。
Feb, 2020
本文提出将指数加权法放在网络学习的中心地位,将标准方法和其遗憾界转化为适当的替代损失函数以及指数加权后验的结果,给出了在线梯度下降、在线镜像下降和在线牛顿步等方法的 EW 表述,并使得由复杂的自适应方法可转为简单易行的指数凸的代理损失函数。
Feb, 2018
该研究使用弹性权重整合和不同形式的语言建模技术,通过检查点平均和弹性权重整合优化先前 WMT 测试集的强基准线,并在基于改进的 Transformer 架构的文档级别 LM 和句子级别 Transformer LM 上获得进一步的增益。同时从 SMT lattices 中提取 n-gram 概率,可作为源条件的 n-gram LM。
Jun, 2019
Elastic Feature Consolidation (EFC) 通过对于 feature drift 的正则化,以及使用高度相关的方向和高斯原型来更新重要方向的特征漂移,成功解决了 Exemplar-Free Class Incremental Learning (EFCIL) 在 Cold Start 情景下的挑战,并在学习新任务时保持了模型的可塑性,明显优于最先进方法。
Feb, 2024