Nov, 2019

通过 Frank-Wolfe 实现学徒式学习

TL;DR研究使用 Frank-Wolfe 算法解决无显式奖励函数的 Markov 决策过程中的学徒学习问题,提出将专家的特征期望投影到特征期望凸多面体上,使用凸优化的 FW 算法来优化目标函数,得到更紧的收敛界,尤其是当采用 “步进调整” 方法时,收敛速度线性快于 FW 算法,并且增加随机性能够避免对特征期望的精确估计。