Jan, 2023

模型基强化学习中的 Stein 信息导向探索

TL;DR本研究提出了一种基于转移模型的新型探索激励方法 STEERING,并通过内核化 Stein 差异度(KSD)计算与优化未知最优模型之间的积分概率度量(IPM),获得亚线性贝叶斯遗憾,比当前基于信息增益的模型强化学习算法表现更优。