Apr, 2022

在部分已知语义环境中联合学习奖励机制和策略

TL;DR该论文研究了强化学习在奖励机制下的任务,提出了一种利用概率估计和 Q-learning 算法的强化学习算法,能够成功推断出奖励机制并且渐进地学习任务的策略,即使环境中的原子命题的真值存在不确定性。