Nov, 2016

强化学习中的公正性

TL;DR研究强化学习中的公平性问题,探讨算法选择对环境和未来奖励的影响,提出公平性约束条件,尽管该条件与最优策略一致,但满足公平性的学习算法必须花费时间指数级才能达到对最优策略的非平凡逼近,提出在近似公平性约束下的多项式时间算法,从而建立了精确公平性和近似公平性之间的指数差距。