Oct, 2023

RNN训练中的分叉和损失跳跃

TL;DR利用循环神经网络 (RNNs) 建立模型和预测顺序数据,推理系统动力学(DS);利用 DS 理论(DST) 增进对训练后的 RNNs 解决复杂任务的理解,以及训练过程本身;研究证明 ReLU-based RNNs 中某些分叉确实与梯度趋近于无穷大或零有关;引入一种新的启发式算法检测 ReLU-based RNNs 中的所有稳定点和 k-循环,以及它们的存在和稳定域,从而在参数空间中获得分叉流形;算法具有精确结果且具有良好的扩展行为。