Oct, 2022

机遇性偶发式强化学习

TL;DR本文提出和研究机会主义强化学习 - 一种新型强化学习问题变体,在外部环境条件下选择次优动作的后悔因子会发生变化。我们的算法通过引入变动因子相关的乐观估计来平衡探索和利用的权衡,并验证通过仿真实现了该算法。