双不确定值网络实现的高效探索
本文中,我们考虑了强化学习中的探索/利用问题,提出了不确定性Bellman方程(UBE)来扩展策略的潜在探索利益,并证明了该方程的唯一不动点产生的方差上限是由任何策略引起的Q值的后验分布,相较于传统的基于计数的奖励方法,它控制了方差,将UBE探索策略替换为ε-greedy可提高在Atari游戏中DQN性能的表现。
Sep, 2017
这篇论文研究了高维情境下的强化学习,提出了两种基于乐观法和后验采样的算法来解决此问题,并扩展了该方法应用在深度强化学习上,所提出的贝叶斯深度Q网络通过采用贝叶斯线性回归的方法调整Q-networks的学习方式,使其能够充分平衡探索与执行间的权衡,更加有效地应用在Atari游戏中。
Feb, 2018
提出了一个框架,通过学习的 Q 值来区分和估计强化学习中源于有限数据的认识不确定性和源于随机环境的aleatoric不确定性,并引入一种考虑不确定性的 DQN 算法,该算法表现出安全的学习行为,并在 MinAtar 测试中表现出优越性能。
May, 2019
本文提出了一种使用索引抽样来诱导探索的新方法,采用分布式时序差分算法学习参数化的索引值函数,并通过提出的双网络架构 Parameterized Indexed Networks(PIN)来表现出性能的优越性。
Dec, 2019
本文提出并应用一种度量Q-值函数中认知不确定性的度量标准,称为路径认知不确定性,并开发了一种计算其近似上限的方法F-值。我们在Deep Q-Networks (DQN)中实验性地应用其来表明在强化学习中的不确定性估计是学习进展的有用指标,并提出了基于CritiC的置信度引导探索(CCGE)的新方法,以在不确定性高时从现有(之前学习或预先编码)的oracle策略中学习,以避免训练期间无效的随机动作。然后我们应用该方法到Soft Actor-Critic(SAC),并在几个常见的Gym环境中表明它比普通SAC表现更好。
Aug, 2022
本文研究了深度模型与强化学习中的样本效率问题。通过将认知不确定性引入到计划树中,规避了标准方法的不确定性传播,并通过MuZero算法进行了评估验证。 实验结果表明,可以通过不确定性规划实现有效的深度探索,从而显著提高样本效率。
Oct, 2022
在模型基强化学习中,我们考虑了如何量化累积奖励的不确定性,并提出了一种新的不确定Bellman方程来弥补现有工作的不足,该方法能够更准确地告诉我们此前探索的不足。实验表明,这种更精确的不确定性估计方法能够提高样本效率。
Feb, 2023
本文提出了一种称为epistemic value estimation (EVE)的方法,用于有效探索在强化学习中的问题,EVE方法适用于序列决策以及神经网络函数逼近器,利用其可计算的参数的后验概率,能够有效地计算出epistemic value uncertainty这一不确定性,经实验验证EVE方法有助于在困难的探索任务中实现有效的探索。
Mar, 2023
贝叶斯强化学习在面对不确定性的顺序决策问题中提供了一种原则性和优雅的方法,但其主要挑战是在高维状态转移分布中建模不确定性的计算复杂性。本文提出了一种新颖的无模型方法来解决这个挑战,通过在一维贝尔曼算子中建模不确定性,引入贝叶斯探索网络(BEN),通过正态化流来建模贝尔曼算子中的不确定性,并通过变分推断来建模知识性不确定性,实验结果表明,BEN可以在现有的无模型方法失败的任务中学习到真正的贝叶斯最优策略。
Aug, 2023
我们提出了一种基于分布式强化学习的算法,通过估计参数化回报分布来统一估计aleatory和epistemic不确定性,并量化两种不确定性的综合效应以实现风险敏感的勘探。实证结果表明,我们的方法在具有勘探和风险挑战的任务中优于替代方法。
Jan, 2024