深度强化学习中的高效探索:一种新颖的贝叶斯演员-评论家算法
本文深入探讨贝叶斯方法在强化学习中的作用,讨论了使用贝叶斯推理进行动作选择和利用先验知识等方面的优点,概述了在单步赌博机模型、模型基 RL 和模型无 RL 中贝叶斯方法的模型与方法,并全面评估了贝叶斯 RL 算法及其理论和实证性质。
Sep, 2016
基于深度神经网络的参数Primal-Dual pi学习方法,旨在解决马尔可夫决策过程中状态空间大和策略离线学习问题,通过基本线性Bellman方法对价值和策略函数进行原始对偶更新,从而更加有效地进行价值和策略更新,在与同类方法比较的测试中表现明显优于最相关的基准方法
Dec, 2017
使用VaST的优先级扫描规划方法,提高强化学习智能体的样本效率。在3D导航等任务中,VaST能够快速学习并有效地适应奖励或过渡概率的突然变化。
Feb, 2018
本研究提出了一种新的Actor-Critic算法变体,使用Monte Carlo演算法在策略搜索更新期间进行rollouts以控制偏差,不论策略评估技术的选择,我们都能提供Actor-Critic算法的收敛速度,特别是当值函数采用线性函数近似且为连续状态和动作空间时,这些结果适用于Temporal Difference, Gradient Temporal Difference和Accelerated Gradient Temporal Difference。
Oct, 2019
提出了一种基于模型的强化学习算法,该算法包括明确的探索和利用阶段,并适用于大规模或无限状态空间,该算法维护一组与当前体验一致的动态模型,并通过查找在状态预测之间引起高度分歧的策略来进行探索,然后利用精细化的模型或在探索过程中收集的体验,我们证明,在实现和最优规划的假设下,我们的算法能够用多项式结构复杂度度量在很多自然设置中得到完美的政策,并给出了一个使用神经网络的实用近似,并证明了它在实践中的性能和样本效率。
Nov, 2019
本文介绍了一种新的基于模型的强化学习算法,通过利用学习到的模型和策略经过多个时间步长的路径导数来构建策略优化算法,同时通过学习一个演员评论家,使用终端值函数避免了通过多个时间步长的不稳定性。结果显示,该方法比现有的最先进的基于模型的算法在样本效率上更为一致,并且与基于模型的算法达到了基于模型的算法无法达到的渐近性能,而且具有可扩展性。
May, 2020
本书提供了深度强化学习领域的全面概述,主要涵盖了建立领域基础,算法和应用,同时介绍了一些先进主题,如深度多智能体强化学习、深层次强化学习和深元学习;本书适用于人工智能的研究者、从业者和研究生,假定读者具有本科水平的计算机科学和人工智能理解,编程语言使用Python。
Jan, 2022
Probabilistic Actor-Critic (PAC) algorithm improves continuous control performance by integrating stochastic policies and critics, explicitly modeling critic uncertainty through PAC-Bayes analysis, and adapting exploration strategy in deep reinforcement learning.
Feb, 2024
深度强化学习在过去几年取得了显著进展,但是即使对于专家来说,找到适当的超参数配置和奖励函数仍然具有挑战性并且性能严重依赖于这些设计选择,因此我们提出了一种方法来同时优化超参数和奖励函数,实验证明综合优化可以显著改善性能,在一些环境中比基准性能好,并在其他环境中取得了竞争性表现,只有少量计算成本的增加。
Jun, 2024