强化学习与概率推断的理解
本文深入探讨贝叶斯方法在强化学习中的作用,讨论了使用贝叶斯推理进行动作选择和利用先验知识等方面的优点,概述了在单步赌博机模型、模型基 RL 和模型无 RL 中贝叶斯方法的模型与方法,并全面评估了贝叶斯 RL 算法及其理论和实证性质。
Sep, 2016
本文提出了在非Markovian、非ergodic且只部分可观察的环境下进行强化学习的问题。作者建立了贝叶斯强化学习代理的负面结果,并证明Thompson采样在随机环境中是渐进最优的。此外,作者构建了一个大但可计算的类,展示了基于Thompson采样的代理在这个类中收敛于任意未知可计算多智能体环境中的纳什均衡。
Nov, 2016
该研究介绍了一种基于最大熵的强化学习或最优控制方法,该方法在确定性动力学和随机动力学方面分别相当于精确概率推断和变分推断,并探讨了相关算法和未来研究方向。
May, 2018
提出一种新的基于概率模型的强化学习方法VIREL,通过应用参数化的动作值函数来总结底层MDP系统的未来动态,使VIREL具有KL散度的寻找峰值形式、自然地从推断中学习确定性最佳策略的能力和分别优化价值函数和策略的能力。通过对VIREL应用变分期望最大化方法,我们表明可以将Actor-critic算法简化为期望最大化,其中策略改进对应E步骤,策略评估对应M步骤,最后,我们展示了来自这个家族的Actor-critic算法在几个领域优于基于软值函数的最新方法。
Nov, 2018
该论文研究了基于自由能原理的主动推理对机器学习中的强化学习和示范学习问题的解决,并将此概念应用于标准问题山车问题,结果表明主动推理可以涵盖强化学习和示范学习技术。
Apr, 2019
本文介绍了如何使用序列建模来解决强化学习问题,使用Transformer架构来建模轨迹上的分布,并改造了波束搜索作为规划算法,在长时间序列预测、模仿学习、目标条件下的强化学习和离线强化学习等方面展示了该方法的灵活性和高效性,同时将该方法与基于模型的算法相结合,使其在稀疏奖励、长时间序列任务中表现为最先进的计划器。
Jun, 2021
本文研究了强化学习系统在现实世界中部署的中心挑战——泛化,并展示了强化学习问题的时序结构需要新的泛化方法,同时介绍了一种新的部分可观察马尔可夫决策过程(POMDP)解决方案——认知 POMDP,通过简单的基于集成的技术解决了部分可观测性问题,证明了所提出的算法对 Procgen 基准套件的表现相比现有方法有显著提高。
Jul, 2021
本文引入一种新的强化学习算法,通过学习马尔可夫决策过程中两个状态之间的距离来预测,距离度量作为内在奖励被用于推动智能体的学习。实验结果表明,相比于模型无关的强化学习,该算法在多个测试环境中具有更好的样本效率。
Oct, 2022
强化学习中,通过马尔科夫决策过程的图形模型,以概率推理的方式对各状态-行为对的访问概率进行研究。本研究采用贝叶斯方法,严格处理了状态-行为优化的后验概率,并阐明了其在马尔科夫决策过程中的流动方式。通过引入变分贝叶斯近似方法,得到了一个可行的凸优化问题,建立的策略也能有效地进行探索。该方法称为VAPOR,与汤普森抽样、K学习和最大熵探索有着紧密的联系。通过一些实验,展示了深度强化学习版本VAPOR在性能上的优势。
Nov, 2023
本研究聚焦于强化学习(RL)这一人工智能领域,通过介绍其核心概念和方法,填补了学习资源不足的空白。论文提出了一种系统化的学习路径,帮助初学者理解状态、动作、策略和奖励信号等关键组件,进而掌握各种RL算法的应用。其重要发现是为初学者提供了清晰且易于理解的强化学习入门,促进该领域的学习与实现。
Aug, 2024