May, 2019

在线马尔可夫决策过程中全局凸奖励的强化学习中的勘探利用权衡

TL;DR研究了在Markov决策问题中,代理人通过在线凸规划算法设计非固定策略,以最大化全局凹奖励函数和矢量结果的均值,以解决多目标优化和Markov环境下的受限优化问题。