提出了一种基于模型的强化学习算法,该算法包括明确的探索和利用阶段,并适用于大规模或无限状态空间,该算法维护一组与当前体验一致的动态模型,并通过查找在状态预测之间引起高度分歧的策略来进行探索,然后利用精细化的模型或在探索过程中收集的体验,我们证明,在实现和最优规划的假设下,我们的算法能够用多项式结构复杂度度量在很多自然设置中得到完美的政策,并给出了一个使用神经网络的实用近似,并证明了它在实践中的性能和样本效率。
Nov, 2019
该论文提出了一个新的 “无奖励强化学习” 框架,通过在探索阶段从 MDP 采集轨迹来找到探索策略,并使用黑盒近似规划器计算接近最优的策略。
Feb, 2020
本文提出一种基于模型行动选择的强化学习方法,该方法在价值函数的潜在特征空间中学习动态模型,实现机器人和环境的动态表示和模型自我激励,从而解决传统方法当中的探索与利用权衡问题,并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能,重点是改善探索。
Apr, 2018
采用信息论的观点,我们研究强化学习中的探索问题,并提出了一种新颖的无模型解决方案,通过推导实例特定的下界以及最优的探索策略,我们衍生出一种基于集成模型的无模型探索策略,适用于表格和连续马可夫决策过程, 数值结果表明我们的策略能够比最先进的探索方法更快地找到高效的策略。
Jun, 2024
本文提出利用贝叶斯最优实验设计思想指导选择状态 - 动作对查询以达到高效学习的方法,即提出一种衡量一个状态 - 动作对对马尔可夫决策过程的最优解提供多少信息的获取函数,在每次迭代中,我们的算法最大化这个获取函数,选择提供最多信息的状态 - 动作对被查询,从而获得高效的数据驱动强化学习方法;在多个连续控制问题上实验,相比于基于模型或无模型的 RL 基线方法,本文方法学习出的最优策略所需样本量减少了 5-1000 倍。
Dec, 2021
本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域,并提出将单个随机操作选择替换为随机目标选择,该方法与任何基于好奇心的探索和脱机强化学习代理兼容,并生成比单个随机操作更长且更安全的轨迹。
Jul, 2018
基于探索的深度强化学习方法对新环境具有良好的泛化能力,通过使用一种基于 Q 值分布集合的探索方法,该算法在 Procgen 和 Crafter 两个高维强化学习一般化基准上取得了最新的进展。
Jun, 2023
本文研究了一种强化学习设置,其中学习者没有显式访问底层马尔可夫决策过程(MDP)的状态,而是可以访问将过去互动的历史映射到状态的多个模型,并改进了这种设置下已知的后悔边界,并更重要的是对给定给学习者的模型不包含 MDP 表示而只包含其近似的情况进行了概括。我们还改进了状态聚合的误差边界。
May, 2014
贝叶斯强化学习在面对不确定性的顺序决策问题中提供了一种原则性和优雅的方法,但其主要挑战是在高维状态转移分布中建模不确定性的计算复杂性。本文提出了一种新颖的无模型方法来解决这个挑战,通过在一维贝尔曼算子中建模不确定性,引入贝叶斯探索网络 (BEN),通过正态化流来建模贝尔曼算子中的不确定性,并通过变分推断来建模知识性不确定性,实验结果表明,BEN 可以在现有的无模型方法失败的任务中学习到真正的贝叶斯最优策略。
Aug, 2023
本文介绍了一种新的计数乐观探索算法,可在高维状态 - 动作空间中使用,并提出了一个新方法来计算泛化状态的访问次数,从而解决了限制训练经验进行广义状态估计的问题。实验表明,该算法在高维 RL 基准测试中取得了接近最新的结果,且计算代价较低。
Jun, 2017