强化学习与控制的概率推断:教程与综述
本研究因 RL 作为推理方法的短处而对其进行澄清,RL 代理人必须考虑其行动对未来奖励和观察结果的影响,即探索和开发之间的权衡。我们证明了‘RL 作为推理’近似在基本问题中表现不佳,但我们展示了通过小修正该框架可以获得可靠的算法,该算法与最近提出的 K-learning 等价,我们进一步将其与汤普森取样联系起来。
Jan, 2020
文章利用 KL 最小化问题来表述非线性随机最优控制问题,通过将最优控制计算转化为推理计算,应用了近似推理方法以高效计算近似优化控制。通过实例,作者展示了近似推理方法的成功应用,在讨论 KL 控制方法与其他控制推理方法之间的联系。
Jan, 2009
本文提供了一个应对强化学习的框架,解决了建模不确定性和计算成本高的问题,通过使用强化学习来解决随机动态规划方程,所得的强化学习控制器对多种类型的约束条件是安全的,并且可以主动学习建模不确定性,实现实时学习。通过模拟实例证明了提出方法的有效性。
Sep, 2023
本文提出了基于概率模型预测控制(MPC)的基于模型的 RL 框架,以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响,同时使用 MPC 找到最小化预期长期成本的控制序列,以达到在受限环境下使用 RL 的目的。
Jun, 2017
本文提出一种生成概率模型,该模型融合了新兴的通信和多智能体强化学习技术,可通过概率推断计划其动作,在通过信息传递实现协作任务的过程中,使用潜在变量估计与规划,基于 Metropolis-Hasting 命名游戏公式推算,实现了有意义的信息传递和协作任务。
Jul, 2023
本论文旨在研究深度模型强化学习方法的实证不足,并提出解决方案,同时探讨现代生成建模工具箱中推理技术(包括波束搜索、分类器导向抽样和图像修复等)在强化学习问题中的有效规划策略。
Jun, 2023
通过提出一种新的变分推断形式,从环境交互中直接学习良好的奖励函数,并使用新的概率贝尔曼反演运算符,发展了一种离线策略算法来解决目标导向任务,该方法消除了手工制作奖励函数的需要,并对各种机械操纵和运动任务产生了有效的目标导向行为。
Apr, 2021
强化学习中,通过马尔科夫决策过程的图形模型,以概率推理的方式对各状态 - 行为对的访问概率进行研究。本研究采用贝叶斯方法,严格处理了状态 - 行为优化的后验概率,并阐明了其在马尔科夫决策过程中的流动方式。通过引入变分贝叶斯近似方法,得到了一个可行的凸优化问题,建立的策略也能有效地进行探索。该方法称为 VAPOR,与汤普森抽样、K 学习和最大熵探索有着紧密的联系。通过一些实验,展示了深度强化学习版本 VAPOR 在性能上的优势。
Nov, 2023
我们提出了一个控制论强化学习方法,用于直接学习最优策略,并在这个方法的一个特定实例基础上建立了理论性质,并导出了一个算法。我们的实证结果证明了我们方法的显著优势。
Jun, 2024
本研究提出一种基于强化学习的控制策略综合算法,用于最大化满足作为线性时序逻辑公式给出的高级控制目标的概率。该算法将 LTL 规范转换为限制性确定布琦自动机,再与具有不确定工作空间特性、结构和智能体行为的 PL-MDP 合并进行训练,从而生成满足概率的最大值。
Sep, 2019