ICMLMar, 2018

层次化模仿与强化学习

TL;DR论文提出了一种算法框架,称为层次性指导,旨在通过利用专家的反馈来学习序贯决策制定策略,以应对奖励稀疏和时间范围长等问题,该框架可以在不同的层次上组合不同的 imitation learning 和 reinforcement learning,从而大大减少专家工作量和探索成本,并对该框架的某些实例的标注成本进行了理论分析。