AAAIFeb, 2023

具有不确定情节长度的在线强化学习

TL;DR研究了应用于随机 episode 长度的模型下的强化学习框架,设计出相应的 regret 最小化的强化学习算法,并用于价值迭代算法在网格环境下的对比。