关键词sequential decision-making policies
搜索结果 - 2
- 生成对抗模仿学习的计算与泛化
本文探讨基于生成式对抗性模型的模仿学习算法(Generative Adversarial Imitation Learning,GAIL)的理论性质,证明了对于一般的回报参数化形式,只要正确控制奖励函数的类别,就可以保证泛化效果,并且利用再 - ICML层次化模仿与强化学习
论文提出了一种算法框架,称为层次性指导,旨在通过利用专家的反馈来学习序贯决策制定策略,以应对奖励稀疏和时间范围长等问题,该框架可以在不同的层次上组合不同的 imitation learning 和 reinforcement learnin