Sep, 2023

有保证的受限强化学习中高效的探索:后验抽样即可

TL;DR基于后验抽样的算法在约束马尔可夫决策过程(CMDP)的无限时间不折扣设置中提供了近最优的遗憾界限,同时在实证上比现有算法更具优势。