Feb, 2021

改进的环境依赖强化学习的鲁棒性算法

TL;DR研究了在奖励和转移概率未知的情况下的分集式强化学习,提出了使用新的算法来达到更好的后悔界限,并基于攻击性鲁棒性策略消除元算法和插入式无奖励探索子算法的通用算法框架。