弹性权重巩固以获得更好的偏差接种
本文研究了神经机器翻译中的无监督预训练方法,使用 Elastic Weight Consolidation 对双向编码器和解码器进行初始化,通过 fine-tune 来避免原始语言建模任务的遗忘,并将其与以前的正则化工作进行比较,结果表明使用这种方法可以快速收敛而且不需要原始未标记的数据。
Oct, 2020
本文介绍了 Elastic weight consolidation (EWC) 算法,该算法是为了保护神经网络免受灾难性遗忘而设计的。该算法可以被视为 Laplace 传播的一种近似,但本文指出 EWC 中的二次惩罚与该推导不一致,可能导致对更早任务的数据重复计数。
Dec, 2017
提出了一个基于 Elastic Weight Consolidation 并基于上游任务信息的 Sequential Domain Adaptation 框架,来解决在不同领域上 sentiment analysis 同时训练时 catastrophic forgetting 的问题,并在实验中证明了该框架的有效性。
Jul, 2020
该研究使用弹性权重整合和不同形式的语言建模技术,通过检查点平均和弹性权重整合优化先前 WMT 测试集的强基准线,并在基于改进的 Transformer 架构的文档级别 LM 和句子级别 Transformer LM 上获得进一步的增益。同时从 SMT lattices 中提取 n-gram 概率,可作为源条件的 n-gram LM。
Jun, 2019
弹性变分持续学习与权重保持的混合模型可以有效地缓解灾难性遗忘,并能更好地捕捉模型参数与任务特定数据之间的依赖关系。在五个可分辨任务上进行评估,该模型在领域增量和任务增量学习场景中持续优于现有基线模型。
Jun, 2024
通过系统实验,本文发现 MaxML 存在的曝光偏差问题是 “抽样计划” 的缺点,该计划加剧了当推理时间的前缀是正确的时的性能下降,即灾难性忘记。因此,提出使用 “弹性权重合并” 方法来更好地平衡减轻曝光偏差与保持性能。在四个翻译数据集上的实验表明,该方法缓解了灾难性忘记问题,并显著优于最大似然估计和计划抽样对照组。
Sep, 2021
本文探究 EWC 算法对抗恶意攻击的漏洞,发现通过在训练中引入微小的错误信息,恶意攻击者能够逐步地、故意地让模型遗忘数据,从而掌控模型。我们展示了针对 MNIST 数据集不同变种的后门攻击,并证明只需要在不到 1% 的训练数据中注入恶意样本,即可轻松破坏神经网络的记忆。
Feb, 2020
提出了一种称为弹性权重剔除(EWR)的方法,该方法通过测量权重的不确定性来约束预先训练的模型参数,使得对话系统生成关于相关文件的信息时,不会产生错误或不可验证的信息。该方法使用 Flan-T5 作为主干语言模型,通过自动和人工评估表明,它在提高忠诚度方面具有系统性的优势。同时该方法还可以同时限制幻觉和提取响应,以防止浅层的复制和粘贴文档范围的情况。
Mar, 2023
本文论述了如何在更新神经网络模型时减少深度学习模型遗忘前期知识的问题,从而减少新模型的训练成本,并介绍混合少量历史数据的数据彩排和弹性加权差异等方法以提高整体准确度。
Jun, 2023