Apr, 2023

深度神经网络的分层加权平均

TL;DR本文介绍了一种名为 Hierarchical Weight Averaging (HWA) 的新的深度学习神经网络权重平均训练框架,通过整合在线和离线平均方法,它能够同时提高收敛速度和泛化性能,同时解决了现有 WA 方法面临的问题。实验证明,HWA 明显优于现有方法。