Nov, 2020
迎合挑剔的顾客:多目标强化学习的遗憾界与探索复杂度
Accommodating Picky Customers: Regret Bound and Exploration Complexity
for Multi-Objective Reinforcement Learning
TL;DR提出一种基于马尔可夫决策过程的实现多目标强化学习的模型,针对不确定性的reward函数,使用内积方法建立了一种新的衡量指标,探讨了在线学习以及基于Preference-free exploration的学习方式,并提出了一种轨迹复杂度几乎最优的算法。