MMSep, 2019

强化学习奖励机制和政策的联合推理

TL;DR研究了如何通过迭代算法将奖励机器与 q-learning 相结合,以便在复杂任务中实现快速政策优化。