Nov, 2020
迎合挑剔的顾客:多目标强化学习的遗憾界与探索复杂度
Accommodating Picky Customers: Regret Bound and Exploration Complexity for Multi-Objective Reinforcement Learning
Jingfeng Wu, Vladimir Braverman, Lin F. Yang
TL;DR提出一种基于马尔可夫决策过程的实现多目标强化学习的模型,针对不确定性的 reward 函数,使用内积方法建立了一种新的衡量指标,探讨了在线学习以及基于 Preference-free exploration 的学习方式,并提出了一种轨迹复杂度几乎最优的算法。