AAAIFeb, 2019

强化学习中折扣因子的再思考:决策论方法

TL;DR本篇论文通过引入可变的折扣因子,建立起广泛适用的序列决策模型,并构建了统一的强化学习、逆强化学习和基于偏好的强化学习模型,这一模型囊括了传统模型的所有情况,同时展现出更高的泛化能力。