Feb, 2019

克服多模型遗忘

TL;DR我们发现了一种现象,称之为多模型遗忘,它出现在序贯训练多个具有部分共享参数的深度网络时,以前训练的模型的性能随着优化下一个模型而降低,为了克服这个问题,我们引入了一种统计上可证明的权重可塑性损失,根据前面模型的重要性对模型的共享参数进行正则化学习,并证明了在训练两个模型时以及进行神经架构搜索时的有效性,将权重可塑性添加到神经架构搜索中可将最佳模型保存到搜索的末尾,并在自然语言处理和计算机视觉任务中获得了改进的结果。