BriefGPT.xyz
Oct, 2020
深度强化学习的数据效率受到参数欠约束的抑制
Implicit Under-Parameterization Inhibits Data-Efficient Deep Reinforcement Learning
HTML
PDF
Aviral Kumar, Rishabh Agarwal, Dibya Ghosh, Sergey Levine
TL;DR
利用神经网络近似值函数的基于价值的深度强化学习方法存在隐含的欠参数化现象,该现象会通过下降学习到的价值网络特征的排名导致性能下降,控制特征排名的崩溃可以缓解这一现象并改善性能。
Abstract
We identify an implicit under-parameterization phenomenon in
value-based deep rl
methods that use
bootstrapping
: when value functions, approximated using
→