May, 2022

分层强化学习: 面对不确定性的悲观和恒定遗憾

TL;DR提出了一个学习框架,该框架使用两个算法与多层次结构的用户交互应用程序中的用户进行分组,以分别处理他们的不同探索风险容忍度,并研究了将Pessimistic Value Iteration作为利用算法的应用。