Jul, 2023

可证明有效的 UCB 类算法用于学习预测状态表示

TL;DR该研究提出了适用于预测状态表示(PSRs)的首个 UCB(Upper Confidence Bound)方法,具有计算效率、接近最优策略的最后迭代保证以及保证模型准确性等特点。