Oct, 2020

深度强化学习的数据效率受到参数欠约束的抑制

TL;DR利用神经网络近似值函数的基于价值的深度强化学习方法存在隐含的欠参数化现象,该现象会通过下降学习到的价值网络特征的排名导致性能下降,控制特征排名的崩溃可以缓解这一现象并改善性能。