Jul, 2021

对抗MDP中的策略优化:通过扩张奖励实现更好的探索

TL;DR本研究提出了在政策优化中添加膨胀奖励以促进全局探索的解决方案,用于改进和推广了(在具有对抗性损失和赌徒反馈的情况下)几个历史上最先进的MDP设定,并得到了更优秀的结果,其中包括调整了先前已知的结果。