在强化学习中,代理人旨在最大化累积奖励,面临利用现有知识获取奖励或寻求潜在更高奖励的开发与探索困境。我们引入了一种创新方法,通过精心设计的先验 NNs,在强化学习的初始值函数中引入最大多样性,以解决常规集成型不确定性估计的问题。相比于随机先验方法,我们的方法在解决经典控制问题和一般性探索任务中表现出优越的性能,显著提高样本效率。
Oct, 2023
本文将探讨模型集成中两个重要因素 -- 先验函数和自助法 -- 的作用,提出了先验函数可以显著提高集成模型在输入上的预测能力且自助法可以在信号 - 噪声比变化时带来额外的好处。通过理论和实验结果,作者证明了这两个元素对于提高机器学习代理的表现和决策效果是必不可少的。
Jun, 2022
本文提出了一种名为逆方差强化学习的贝叶斯框架,结合概率一致集和批次逆方差加权,采用两种互补的不确定性估计方法来更好地缓解深强化学习中嘈杂监督的负面影响,从而显著提高了离散和连续控制任务的样本效率。
Jan, 2022
通过从高斯分布中采样引入噪音,本研究探讨了用噪声替换先验知识来增加 Bootstrapped Deep Q-Learning 中多样性的可能性,并在 Atari 基准上实验,将该算法与原始算法及其他相关算法进行了比较,结果表明该修改方案显著提高了模型的评估分数,保证了多样性的完整性。
Mar, 2022
使用 MC-Dropout 和 Bootstrapping 方法来提高安全驾驶机器人的模型稳定性,实现在未知数据情况下的碰撞回避。
Oct, 2018
该论文探讨了利用不确定性估计技术提高样本效率和鲁棒性的方法,其中提出了利用打包聚合技术训练奖励模型,但研究结果显示,集成主动学习并不比随机采样更有效。
提出了一个框架,通过学习的 Q 值来区分和估计强化学习中源于有限数据的认识不确定性和源于随机环境的 aleatoric 不确定性,并引入一种考虑不确定性的 DQN 算法,该算法表现出安全的学习行为,并在 MinAtar 测试中表现出优越性能。
May, 2019
本研究旨在利用基于不确定性的深度网络动态模型来提高回报函数学习算法的样本效率,并通过样本传播方法实现不确定性处理,从而解决参数化函数逼近器,如深度网络的性能下降问题,我们提出了一种名为 PETS 的新算法。与深度强化学习的先进算法进行比较,结果表明我们的方法可以在 Asymptotic Performance 上与模型自由算法匹配,并且在许多具有挑战性的基准任务中需要明显较少的样本数量(例如,在半猎豹任务中所需样本数量比 Soft Actor Critic 和 Proximal Policy Optimization 分别减少 8 倍和 125 倍)。
May, 2018
提出了一种用基于贝叶斯信任网络和蒙特卡罗采样的方法来对神经网络进行不确定性估计,这个方法具有与神经网络结构和任务无关,不需要优化进程的更改,能够应用于已经训练好的结构,有效地提高了准确性。
Jul, 2019
本文研究了深度模型与强化学习中的样本效率问题。通过将认知不确定性引入到计划树中,规避了标准方法的不确定性传播,并通过 MuZero 算法进行了评估验证。 实验结果表明,可以通过不确定性规划实现有效的深度探索,从而显著提高样本效率。
Oct, 2022