Jan, 2018

模仿学习中的值聚合收敛性

TL;DR本文中,研究了价值聚合在解决模仿学习问题上的一般框架,通过迭代地在在线学习环境中交替进行策略优化和评估来生成策略序列。我们揭示了价值聚合总是产生收敛策略序列且性能不断提高的常见信念是错误的,提供了一个关键稳定条件以确保收敛性,并提供了最后一个策略性能的紧密非渐近界。