强化学习与控制的概率推断:教程与综述
我们考虑了在未知的随机马尔可夫环境或游戏中,从代理人的示范学习的问题。我们旨在估计代理人的偏好,以构建同一任务的改进策略。为了做到这一点,我们将已知MDP中逆强化学习的概率方法扩展到未知动态或对手的情况。我们通过导出演示者策略和效用的两个简化概率模型来实现这一点,为了易于处理,我们使用了最大后验估计而不是完整的贝叶斯推断。在先验分布相同的情况下,这结果是凸优化问题。我们发现所得到的算法与其他了解动态的逆强化学习方法相比具有很高的竞争力。
Aug, 2014
本文深入探讨贝叶斯方法在强化学习中的作用,讨论了使用贝叶斯推理进行动作选择和利用先验知识等方面的优点,概述了在单步赌博机模型、模型基 RL 和模型无 RL 中贝叶斯方法的模型与方法,并全面评估了贝叶斯 RL 算法及其理论和实证性质。
Sep, 2016
提出一种新的基于概率模型的强化学习方法VIREL,通过应用参数化的动作值函数来总结底层MDP系统的未来动态,使VIREL具有KL散度的寻找峰值形式、自然地从推断中学习确定性最佳策略的能力和分别优化价值函数和策略的能力。通过对VIREL应用变分期望最大化方法,我们表明可以将Actor-critic算法简化为期望最大化,其中策略改进对应E步骤,策略评估对应M步骤,最后,我们展示了来自这个家族的Actor-critic算法在几个领域优于基于软值函数的最新方法。
Nov, 2018
本文详细介绍了概率图模型和变分推断在强化学习中的应用;从各个方面对深度强化学习的最新进展进行了回顾和比较,并提供了关于概率图模型和变分推断方法的详细分类,为该领域的研究提供了有价值的补充材料。
Aug, 2019
本研究因RL作为推理方法的短处而对其进行澄清,RL代理人必须考虑其行动对未来奖励和观察结果的影响,即探索和开发之间的权衡。我们证明了‘RL作为推理’近似在基本问题中表现不佳,但我们展示了通过小修正该框架可以获得可靠的算法,该算法与最近提出的K-learning等价,我们进一步将其与汤普森取样联系起来。
Jan, 2020
通过提出一种新的变分推断形式,从环境交互中直接学习良好的奖励函数,并使用新的概率贝尔曼反演运算符,发展了一种离线策略算法来解决目标导向任务,该方法消除了手工制作奖励函数的需要,并对各种机械操纵和运动任务产生了有效的目标导向行为。
Apr, 2021
本研究提出了一种新颖的自适应Wasserstein变分优化(AWaVO)方法,利用正式方法提供奖励设计、训练收敛的透明度和顺序决策的概率解释,解决了序列决策问题中奖励函数的解释和相应最优策略的挑战。
Jul, 2023
强化学习中,通过马尔科夫决策过程的图形模型,以概率推理的方式对各状态-行为对的访问概率进行研究。本研究采用贝叶斯方法,严格处理了状态-行为优化的后验概率,并阐明了其在马尔科夫决策过程中的流动方式。通过引入变分贝叶斯近似方法,得到了一个可行的凸优化问题,建立的策略也能有效地进行探索。该方法称为VAPOR,与汤普森抽样、K学习和最大熵探索有着紧密的联系。通过一些实验,展示了深度强化学习版本VAPOR在性能上的优势。
Nov, 2023
我们提出了一个控制论强化学习方法,用于直接学习最优策略,并在这个方法的一个特定实例基础上建立了理论性质,并导出了一个算法。我们的实证结果证明了我们方法的显著优势。
Jun, 2024