我们提出了一种贝叶斯方法来进行离线模型基于的逆向强化学习 (IRL)。该方法通过同时估计专家的奖励函数和对环境动态的主观模型,与现有的离线模型基于 IRL 方法有所不同。我们利用一类先验分布,参数化了专家对环境的模型准确性,以此开发出高维环境中估计专家奖励和主观动态的高效算法。我们的分析揭示了一个新的观点,即当先验认为专家对环境有高度准确的模型时,估计出的策略表现出了稳健的性能。我们在 MuJoCo 环境中验证了这个观察结果,并展示了我们的算法在离线 IRL 问题上优于最先进的方法。
Sep, 2023
该论文介绍了一个基于 ABC 的简单通用框架,用于无似然贝叶斯强化学习,该算法主要利用先验分布,能够应用在基于详细模拟模型的领域,试验结果证实了该算法在 LSPI 比较中具有潜在优势,并引入了一个定理,证明了该算法是原则上可行的。
Mar, 2013
本研究因 RL 作为推理方法的短处而对其进行澄清,RL 代理人必须考虑其行动对未来奖励和观察结果的影响,即探索和开发之间的权衡。我们证明了‘RL 作为推理’近似在基本问题中表现不佳,但我们展示了通过小修正该框架可以获得可靠的算法,该算法与最近提出的 K-learning 等价,我们进一步将其与汤普森取样联系起来。
Jan, 2020
本论文从计算机科学的角度调查了强化学习领域,包括历史、现状和实践应用等方面,并重点探讨了强化学习中的中心问题,如平衡探索和利用、马尔可夫决策理论、延迟强化学习等。
May, 1996
本文系统研究了贝叶斯推断法在机器人运动规划中的应用,重点讨论了策略、训练数据及其在实际任务中的应用。
Jul, 2023
通过积极学习方法和贝叶斯神经网络模型,提高机器人操纵的模型质量和数据效率,以应对复杂环境下的多任务处理挑战。
Apr, 2024
本文论述的是如何在强化学习的算法中基于概率分布估算每个行动的信息价值,并选择能够平衡探索与利用的最佳行动。
Jan, 2013
本文提出一种基于模型的 Bayesian 强化学习框架,采用因式表示和在线规划技术来提高可扩展性,结合学习动态系统结构和参数,同时制定(近)最优动作序列。
Jun, 2012
贝叶斯强化学习在面对不确定性的顺序决策问题中提供了一种原则性和优雅的方法,但其主要挑战是在高维状态转移分布中建模不确定性的计算复杂性。本文提出了一种新颖的无模型方法来解决这个挑战,通过在一维贝尔曼算子中建模不确定性,引入贝叶斯探索网络 (BEN),通过正态化流来建模贝尔曼算子中的不确定性,并通过变分推断来建模知识性不确定性,实验结果表明,BEN 可以在现有的无模型方法失败的任务中学习到真正的贝叶斯最优策略。
Aug, 2023
提出了一种基于后验概率分布的奖励加成方法,用于在 Bayesian RL 中解决探索与利用之间的困境,实现高效且有效的探索,能够利用结构化的先验知识,并证明其具有多项式样本复杂度。
Mar, 2012