Aug, 2023

训练动力学的潜在状态模型

TL;DR模型训练中随机性的影响,如何解释数据顺序和初始化的差异,以及如何解读训练动态和不同轨迹所特征的相变,使用隐马尔可夫模型对神经网络训练过程进行建模,研究相变和减速收敛的潜在 “绕道” 状态。