Jun, 2016

在线序列预测的平滑模仿学习

TL;DR研究在线序列预测的平滑模仿学习问题,通过学习缩减的方法将其降低到回归问题,并采用正则化复杂函数类以确保平滑度。提出了一种元算法,实现快速稳定地收敛到好的策略,相比于以前的方法,具有全部确定性、自适应学习率等优点,并能保证稳定收敛,实证结果证明了性能得到了显著的提高。