Jan, 2022

Dyna-T: 使用 Dyna-Q 和置信上界应用于树

TL;DR本研究提出了一种基于模型、使用 UCT 搜索和更具鲁棒性的动作选择策略的强化学习算法 Dyna-T,在 Open AI 的三个测试环境中的初步测试表明 Dyna-T 优于最先进的 RL 代理。