May, 2022

线性混合 MDP 的高效无界强化学习算法

TL;DR该研究论文提出了第一个计算高效、无横向界限算法,其中采用了加权最小二乘法,以用于未知状态转移动态的估算,并能够应用于异构线性 bandits 中,达到了比已知算法更优的效果。