Oct, 2023

强化学习中LSTD和随机特征的双下降

TL;DR研究论文通过理论分析和数值实验,研究了深度强化学习中时间差分算法的表现受神经网络规模和$l_2$-正则化的影响,发现参数和状态的比例是一个关键因素,还观察到双谷现象,即当参数/状态比例为1时性能会突然下降。