Feb, 2021

信息导向的强化学习奖励学习

TL;DR使用基于贝叶斯模型的信息导向方法进行强化学习,通过最大化不同策略间回报差异的信息增益来选择专家反馈以提高政策性能。