Jun, 2022

政策搅动现象

TL;DR该研究探讨了政策波动现象在基于价值的强化学习中的出现,并证实了它是深度学习相关的形式探索中一种有益但被忽视的表现。研究还进一步阐述了epsilon-贪心探索在该决策探究中扮演的较小角色。