Mar, 2021
基于递归分类的基于样例策略搜索替代奖励方法
Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification
TL;DR本文介绍了一种强化学习的算法,可以更加方便地让用户指定任务,通过提供成功结果的示例来代替复杂且需要技术专业知识的奖励函数。该方法不需要中间奖励函数的学习,仅仅依靠转移和成功结果来学习价值函数,从而需要调整的超参数较少并且代码读起来更加简单易懂。实验结果表明,此方法优于先前学习显式奖励函数的方法。