Jun, 2020

使用线性函数逼近进行无奖励强化学习

TL;DR在不需要奖励函数的情况下,在批量强化学习和多个奖励函数的领域中,代理人可以收集数据,然后使用线性马尔科夫决策过程设置中的线性转移和奖励来实现奖励免费强化学习,并得出一个算法的样本复杂度是多项式时间,与状态和动作的数量无关。