Aug, 2023

贝叶斯探索网络

TL;DR贝叶斯强化学习在面对不确定性的顺序决策问题中提供了一种原则性和优雅的方法,但其主要挑战是在高维状态转移分布中建模不确定性的计算复杂性。本文提出了一种新颖的无模型方法来解决这个挑战,通过在一维贝尔曼算子中建模不确定性,引入贝叶斯探索网络 (BEN),通过正态化流来建模贝尔曼算子中的不确定性,并通过变分推断来建模知识性不确定性,实验结果表明,BEN 可以在现有的无模型方法失败的任务中学习到真正的贝叶斯最优策略。