Oct, 2022

具有凹形回报的情境赌博机及其在公平排序中的应用

TL;DR本文研究了具有凹奖励的情境强化学习(CBCR)问题,提出了第一个不限政策空间并能使后悔可控的算法;通过把CBCR算法几何地解释为期望奖励的凸集上的优化算法,有了一种从CBCR后悔到标量奖励强化学习后悔的新方法, 并给出了在排名和公平性限制下CBCR的解法。