Dec, 2019

事后信用分配

TL;DR本研究提出了一种基于过去决策优劣的后验学习方式,解决了强化学习中的信用分配问题,并通过实证分析展示其成功地解决了一系列信用分配难题。