深度神经网络使用 MixtureGrowth 方法实现网络扩展和训练,提高了准确率,并减少了计算次数。
Nov, 2023
通过考虑参数化和优化策略对训练动态的影响,我们开发了一种高效增长神经网络的方法,该方法动态稳定权重、激活和梯度缩放,提出一种学习率适应机制来解决不平衡训练问题,并取得了与训练大型固定模型相当或更好的准确性和训练速度加快。
Jun, 2023
本文提出了一种新颖的多任务学习方法,其中借助了多任务神经网络的参数共享,通过学习精细的参数共享模式来提高模型性能,该模式通过二进制变量实现,与模型参数共同反向传播学习,并在 Omniglot 基准测试中实现了 17%相对误差减小。
Oct, 2019
本文提出了一种在多语言模型中使用语言特定的子网络的新方法,以控制跨语言参数共享,减少冲突,并在微调过程中增加正向迁移能力,结合元学习技术进行优化,通过广泛的分析验证了方法对模型的影响。
Oct, 2022
该论文介绍了一种用于训练难参数共享的多任务神经网络的新型交替训练程序,该方法通过交替更新共享权重和任务特定权重,利用模型的多头架构,从而降低计算成本,增强训练规范化,并提高泛化性能。实证实验表明,该交替训练程序延迟过拟合,提高了预测准确性,降低了计算需求,对难参数共享的多任务神经网络的训练具有重要意义。
Dec, 2023
通过研究深度模型中参数共享的原因,本文发现共享参数主要是通过优化训练收敛来提高模型性能。在机器翻译等任务中,我们的模型表现优异,且仅有参数共享模型一半的复杂度。
我们提出了一种新颖的参数共享方法,通过将每种类型的代理映射到共享网络中的不同区域,基于它们的身份,形成不同的子网络,从而增加了不同代理之间的策略多样性,而不引入额外的训练参数,通过在多个环境中进行的实验证明,我们的方法表现优于其他参数共享方法。
本文提出神经参数分配搜索 (NPAS) 以及 Shapeshifter Networks (SSNs) 算法,通过自动学习神经网络中参数的共享,从而达到内存优化和性能优化的目的。这一方法在多项任务和网络结构中取得良好的效果。
Jun, 2020
本文提出了一种通过使用共享的超网络生成适配器参数来学习所有层和任务的参数高效的多任务学习框架,从而在跨任务共享知识的同时,通过任务特定的适配器使模型适应每个单独的任务,并在已知的 GLUE 基准测试中实现了多任务学习的改进性能。
Jun, 2021
本文探讨了超网络训练中出现的不稳定性问题,分析发现这与常见的超网络模型架构和初始化方法存在关联,提出了一种基于非比例加性参数化的改进超网络构建方法,在多项任务中实验证明该方法能够更加稳定地提高超网络的训练速度和收敛性。
Apr, 2023