Dec, 2018

可证明高效的最大熵探索

TL;DR该研究采用条件梯度法,利用近似MDP求解器提供高效算法,解决了在没有奖励信号的情况下对一类内在目标进行优化的问题。