深度强化学习的随机化先验函数

Jun, 2018

Randomized Prior Functions for Deep Reinforcement Learning

Ian Osband, John Aslanides, Albin Cassirer

TL;DR本文讨论强化学习中的不确定性估计问题，为解决序列决策问题提出了一种随机不可训练 “先验” 网络的方法。实验证明该方法对于线性和非线性表示方法均有效，并且相较之前的尝试在大规模问题上表现更佳。

Abstract

Dealing with uncertainty is essential for efficient reinforcement learning. There is a growing literature on uncertainty estimation for deep learning from fixed datasets, but many of the most popular approaches a

uncertainty estimation deep learning sequential decision problems prior network large-scale problems

发现论文，激发创造

深度强化学习的多元先验

在强化学习中，代理人旨在最大化累积奖励，面临利用现有知识获取奖励或寻求潜在更高奖励的开发与探索困境。我们引入了一种创新方法，通过精心设计的先验 NNs，在强化学习的初始值函数中引入最大多样性，以解决常规集成型不确定性估计的问题。相比于随机先验方法，我们的方法在解决经典控制问题和一般性探索任务中表现出优越的性能，显著提高样本效率。

Oct, 2023

不确定性估计的整体学习：先验函数和自助法的优势

本文将探讨模型集成中两个重要因素 -- 先验函数和自助法 -- 的作用，提出了先验函数可以显著提高集成模型在输入上的预测能力且自助法可以在信号 - 噪声比变化时带来额外的好处。通过理论和实验结果，作者证明了这两个元素对于提高机器学习代理的表现和决策效果是必不可少的。

Jun, 2022

通过不确定性估计实现高样本利用率的深度强化学习

本文提出了一种名为逆方差强化学习的贝叶斯框架，结合概率一致集和批次逆方差加权，采用两种互补的不确定性估计方法来更好地缓解深强化学习中嘈杂监督的负面影响，从而显著提高了离散和连续控制任务的样本效率。

Jan, 2022

用噪声替换先验提高自举 DQN 的多样性

通过从高斯分布中采样引入噪音，本研究探讨了用噪声替换先验知识来增加 Bootstrapped Deep Q-Learning 中多样性的可能性，并在 Atari 基准上实验，将该算法与原始算法及其他相关算法进行了比较，结果表明该修改方案显著提高了模型的评估分数，保证了多样性的完整性。

Mar, 2022

具有模型不确定性估计的安全强化学习

使用 MC-Dropout 和 Bootstrapping 方法来提高安全驾驶机器人的模型稳定性，实现在未知数据情况下的碰撞回避。

Oct, 2018

语言奖励模型的不确定性估计

该论文探讨了利用不确定性估计技术提高样本效率和鲁棒性的方法，其中提出了利用打包聚合技术训练奖励模型，但研究结果显示，集成主动学习并不比随机采样更有效。

Mar, 2022

深度强化学习中的风险和不确定性估计

提出了一个框架，通过学习的 Q 值来区分和估计强化学习中源于有限数据的认识不确定性和源于随机环境的 aleatoric 不确定性，并引入一种考虑不确定性的 DQN 算法，该算法表现出安全的学习行为，并在 MinAtar 测试中表现出优越性能。

May, 2019

使用概率动态模型进行少量试验的深度强化学习

本研究旨在利用基于不确定性的深度网络动态模型来提高回报函数学习算法的样本效率，并通过样本传播方法实现不确定性处理，从而解决参数化函数逼近器，如深度网络的性能下降问题，我们提出了一种名为 PETS 的新算法。与深度强化学习的先进算法进行比较，结果表明我们的方法可以在 Asymptotic Performance 上与模型自由算法匹配，并且在许多具有挑战性的基准任务中需要明显较少的样本数量（例如，在半猎豹任务中所需样本数量比 Soft Actor Critic 和 Proximal Policy Optimization 分别减少 8 倍和 125 倍）。

May, 2018

深度学习不确定性估计的通用框架

提出了一种用基于贝叶斯信任网络和蒙特卡罗采样的方法来对神经网络进行不确定性估计，这个方法具有与神经网络结构和任务无关，不需要优化进程的更改，能够应用于已经训练好的结构，有效地提高了准确性。

Jul, 2019

带不确定性的规划：模型基强化学习中的深度探索

本文研究了深度模型与强化学习中的样本效率问题。通过将认知不确定性引入到计划树中，规避了标准方法的不确定性传播，并通过 MuZero 算法进行了评估验证。实验结果表明，可以通过不确定性规划实现有效的深度探索，从而显著提高样本效率。

Oct, 2022