Jan, 2023
模型基强化学习中的 Stein 信息导向探索
STEERING: Stein Information Directed Exploration for Model-Based Reinforcement Learning
Souradip Chakraborty, Amrit Singh Bedi, Alec Koppel, Mengdi Wang, Furong Huang...
TL;DR本研究提出了一种基于转移模型的新型探索激励方法 STEERING,并通过内核化 Stein 差异度(KSD)计算与优化未知最优模型之间的积分概率度量(IPM),获得亚线性贝叶斯遗憾,比当前基于信息增益的模型强化学习算法表现更优。