模型 - 价值不一致作为认知不确定性的信号
本文提出了一种称为 epistemic value estimation (EVE) 的方法,用于有效探索在强化学习中的问题,EVE 方法适用于序列决策以及神经网络函数逼近器,利用其可计算的参数的后验概率,能够有效地计算出 epistemic value uncertainty 这一不确定性,经实验验证 EVE 方法有助于在困难的探索任务中实现有效的探索。
Mar, 2023
在模型基强化学习中,我们考虑了如何量化累积奖励的不确定性,并提出了一种新的不确定 Bellman 方程来弥补现有工作的不足,该方法能够更准确地告诉我们此前探索的不足。实验表明,这种更精确的不确定性估计方法能够提高样本效率。
Feb, 2023
本文提出了一种基于模型的价值拓展方法,通过限制想象的深度,控制模型的不确定性,提高了模型自由强化学习算法中学习价值估计的样本复杂度,针对连续控制任务使用了学习到的动态模型。
Feb, 2018
本文提出并应用一种度量 Q - 值函数中认知不确定性的度量标准,称为路径认知不确定性,并开发了一种计算其近似上限的方法 F - 值。我们在 Deep Q-Networks (DQN) 中实验性地应用其来表明在强化学习中的不确定性估计是学习进展的有用指标,并提出了基于 CritiC 的置信度引导探索(CCGE)的新方法,以在不确定性高时从现有(之前学习或预先编码)的 oracle 策略中学习,以避免训练期间无效的随机动作。然后我们应用该方法到 Soft Actor-Critic (SAC),并在几个常见的 Gym 环境中表明它比普通 SAC 表现更好。
Aug, 2022
基于模型的强化学习中,我们考虑量化预期累积奖励的不确定性问题。我们提出了一个新的不确定性 Bellman 方程,其收敛到真实后验价值方差并在表格型探索问题中降低遗憾。我们鉴定了超越表格问题的应用挑战,并提出了相应的近似方法。基于这个近似,我们引入了一种通用的策略优化算法,Q - 不确定性软 Actor-Critic(QU-SAC),可在风险追求或风险规避的策略优化中进行最小程度改动。在线与离线强化学习的实验结果表明相较于其他不确定性估计方法,性能得到了提升。
Dec, 2023
本文提出了一种名为逆方差强化学习的贝叶斯框架,结合概率一致集和批次逆方差加权,采用两种互补的不确定性估计方法来更好地缓解深强化学习中嘈杂监督的负面影响,从而显著提高了离散和连续控制任务的样本效率。
Jan, 2022
本文探讨强化学习中的值等价性原则,提出基于值等价性原则的模型学习问题,证明了随着政策和函数集的扩大,价值等价模型的类别将收缩到描述环境的完美模型上,并通过实验验证了该价值等价模型学习方法的优越性及其在最大似然估计等传统模型学习算法中的实用意义,在强化学习领域常常用于模型学习的价值迭代网络、预测器等模型反映了该价值等价性原则的应用。
Nov, 2020
该研究探讨了在模型不完备的情况下,通过估计预测不确定性(如起源于先验模型不充分的模型不适配性等因素)的方法,选择性地使用模型,以此提高强化学习算法的学习效果。
Jul, 2020
针对黑盒函数优化问题,本文提出了一种新算法,通过价值信息分析决策,处理了由模型差异和噪音观测所带来的不确定性,并在实验中验证了其相对其他先进技术具有更高的目标价值和更少的探索成本。
Mar, 2016