Sep, 2022

线性奖励塑造的乐观好奇探索和保守利用

TL;DR该研究探讨了在基于价值的深度强化学习过程中的奖励构造,并在此基础上提出了正向奖励构造可以实现保守型利用、负向奖励构造则有助于优化探索等观点,建立了一套实现快速收敛的解决方案。