Oct, 2020

奖励机器:在强化学习中利用奖励函数结构

TL;DR该论文介绍了如何使用奖励机制来支持强化学习中的学习过程,并探讨了如何通过奖励机制结构的利用,来提高样本利用率和最终策略的质量。