Dec, 2022

基于模型的强化学习与多项式逻辑函数逼近

TL;DR通过上界置信度算法,为状态转换由多项式逻辑模型给出的MDP建立可证明的高效强化学习算法,其信息瓶颈受到未知转换核的限制。实验表明该算法在实践中具有卓越的性能表现.