Nov, 2020

迎合挑剔的顾客:多目标强化学习的遗憾界与探索复杂度

TL;DR提出一种基于马尔可夫决策过程的实现多目标强化学习的模型,针对不确定性的 reward 函数,使用内积方法建立了一种新的衡量指标,探讨了在线学习以及基于 Preference-free exploration 的学习方式,并提出了一种轨迹复杂度几乎最优的算法。