模型 - 价值不一致作为认知不确定性的信号

ICMLDec, 2021

模型 - 价值不一致作为认知不确定性的信号

Model-Value Inconsistency as a Signal for Epistemic Uncertainty

Angelos Filos, Eszter Vértes, Zita Marinho, Gregory Farquhar, Diana Borsa...

TL;DR本文提出了一种新的基于模型的强化学习算法，通过利用值函数，将模型不同长度的展开作为一种集合，称之为 “implicit value ensemble”，并应用于探索、在分布变化时安全操作以及学习模型规划等方面，实证结果表明这种方法对提升探索效率和增强可靠性有显著的效果。

Abstract

Using a model of the environment and a value function, an agent can construct many estimates of a state's value, by unrolling the model for different lengths and bootstrapping with its →

model-based reinforcement learning agent value function implicit value ensemble epistemic uncertainty

发现论文，激发创造

通过认识价值估计的探索

本文提出了一种称为 epistemic value estimation (EVE) 的方法，用于有效探索在强化学习中的问题，EVE 方法适用于序列决策以及神经网络函数逼近器，利用其可计算的参数的后验概率，能够有效地计算出 epistemic value uncertainty 这一不确定性，经实验验证 EVE 方法有助于在困难的探索任务中实现有效的探索。

Mar, 2023

基于模型的价值函数不确定性

在模型基强化学习中，我们考虑了如何量化累积奖励的不确定性，并提出了一种新的不确定 Bellman 方程来弥补现有工作的不足，该方法能够更准确地告诉我们此前探索的不足。实验表明，这种更精确的不确定性估计方法能够提高样本效率。

Feb, 2023

基于模型的价值估计，用于高效的无模型强化学习

本文提出了一种基于模型的价值拓展方法，通过限制想象的深度，控制模型的不确定性，提高了模型自由强化学习算法中学习价值估计的样本复杂度，针对连续控制任务使用了学习到的动态模型。

Feb, 2018

基于模型的贝叶斯探索

本文论述的是如何在强化学习的算法中基于概率分布估算每个行动的信息价值，并选择能够平衡探索与利用的最佳行动。

Jan, 2013

需要一些监管：通过认知不确定性指标在强化学习中融入 Oracle 政策

本文提出并应用一种度量 Q - 值函数中认知不确定性的度量标准，称为路径认知不确定性，并开发了一种计算其近似上限的方法 F - 值。我们在 Deep Q-Networks (DQN) 中实验性地应用其来表明在强化学习中的不确定性估计是学习进展的有用指标，并提出了基于 CritiC 的置信度引导探索（CCGE）的新方法，以在不确定性高时从现有（之前学习或预先编码）的 oracle 策略中学习，以避免训练期间无效的随机动作。然后我们应用该方法到 Soft Actor-Critic (SAC)，并在几个常见的 Gym 环境中表明它比普通 SAC 表现更好。

Aug, 2022

基于模型的风险意识策略优化的认知变异性

基于模型的强化学习中，我们考虑量化预期累积奖励的不确定性问题。我们提出了一个新的不确定性 Bellman 方程，其收敛到真实后验价值方差并在表格型探索问题中降低遗憾。我们鉴定了超越表格问题的应用挑战，并提出了相应的近似方法。基于这个近似，我们引入了一种通用的策略优化算法，Q - 不确定性软 Actor-Critic（QU-SAC），可在风险追求或风险规避的策略优化中进行最小程度改动。在线与离线强化学习的实验结果表明相较于其他不确定性估计方法，性能得到了提升。

Dec, 2023

通过不确定性估计实现高样本利用率的深度强化学习

本文提出了一种名为逆方差强化学习的贝叶斯框架，结合概率一致集和批次逆方差加权，采用两种互补的不确定性估计方法来更好地缓解深强化学习中嘈杂监督的负面影响，从而显著提高了离散和连续控制任务的样本效率。

Jan, 2022

基于模型的强化学习中的价值等价原则

本文探讨强化学习中的值等价性原则，提出基于值等价性原则的模型学习问题，证明了随着政策和函数集的扩大，价值等价模型的类别将收缩到描述环境的完美模型上，并通过实验验证了该价值等价模型学习方法的优越性及其在最大似然估计等传统模型学习算法中的实用意义，在强化学习领域常常用于模型学习的价值迭代网络、预测器等模型反映了该价值等价性原则的应用。

Nov, 2020

有限模型容量下的选择性 Dyna-style 规划

该研究探讨了在模型不完备的情况下，通过估计预测不确定性（如起源于先验模型不充分的模型不适配性等因素）的方法，选择性地使用模型，以此提高强化学习算法的学习效果。

Jul, 2020

多信息源优化

针对黑盒函数优化问题，本文提出了一种新算法，通过价值信息分析决策，处理了由模型差异和噪音观测所带来的不确定性，并在实验中验证了其相对其他先进技术具有更高的目标价值和更少的探索成本。

Mar, 2016