BADDr: 基于贝叶斯适应性的深度 Dropout RL 用于 POMDPs
该论文提出了一个面向物理系统的专门框架,利用 Bayesian reinforcement learning(BRL)和专家知识对机器人的学习进行优化,实现了在人机交互任务中的快速学习和处理环境中的不确定性。
Jul, 2023
提出了 Action-specific Deep Recurrent Q-Network (ADRQN) 的新体系结构,该体系结构使用 LSTM 层来学习潜在状态,以增强在多个部分可观察领域的学习性能,包括 Atari 游戏。
Apr, 2018
本文提出了一种深度变分强化学习方法,该方法引入了归纳偏置,允许代理学习环境的生成模型并在该模型中执行推断以有效地聚合可用信息。通过在 Mountain Hike 和 flickering Atari 的实验中表明,我们的方法优于先前依赖于循环神经网络对过去进行编码的方法。
Jun, 2018
本研究提出了一种元学习方法 —— 变分 Bayes 适应深度强化学习 (variBAD),用于在未知环境中进行结构化在线探索,通过直接考虑任务不确定性进行动作选择,在 MuJoCo 领域的实验证明,相较于现有方法,variBAD 能够获得更高的在线收益。
Oct, 2019
本文提出了可学习 Bernoulli dropout(LBD),它是一个新的模型无关的 dropout 方案,将 dropout 率视为参数,与其他模型参数一起联合优化,通过 Bernoulli dropout 的概率建模,LBD 实现了深度模型中更稳健的预测和不确定性量化。 与变分自编码器(VAEs)相结合时,LBD 可以实现灵活的半隐式后验表示,从而导致新的半隐式 VAE(SIVAE)模型。我们使用 Augment-REINFORCE-Merge(ARM)对与 dropout 参数训练相关的优化进行求解,这是一种无偏差和低方差的渐变估计器。我们在一系列任务上的实验表明,我们的方法相对于其他常用的 dropout 方案具有更优越的性能。总的来说,LBD 和 SIVAE 在图像分类和语义分割中提高了准确性和不确定性估计。此外,使用 SIVAE,我们可以在几个公共数据集上实现协作过滤器来进行隐式反馈的最先进的性能。
Feb, 2020
这篇论文研究了高维情境下的强化学习,提出了两种基于乐观法和后验采样的算法来解决此问题,并扩展了该方法应用在深度强化学习上,所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式,使其能够充分平衡探索与执行间的权衡,更加有效地应用在 Atari 游戏中。
Feb, 2018
通过提出状态对抗马尔可夫决策过程 (SA-MDP) 的理论框架和一种新的策略正则化方法,并在多个强白盒对抗攻击中测试,我们成功地提高了一系列深层强化学习算法在离散和连续动作控制问题上的鲁棒性。
Mar, 2020
通过融合监督学习和无监督学习,部分监督强化学习(PSRL)框架能够提供更可解释的策略和丰富的潜在洞察力,从而在奖励和收敛速度等方面保持并大大超越传统方法的性能基准。
Feb, 2024
贝叶斯强化学习在面对不确定性的顺序决策问题中提供了一种原则性和优雅的方法,但其主要挑战是在高维状态转移分布中建模不确定性的计算复杂性。本文提出了一种新颖的无模型方法来解决这个挑战,通过在一维贝尔曼算子中建模不确定性,引入贝叶斯探索网络 (BEN),通过正态化流来建模贝尔曼算子中的不确定性,并通过变分推断来建模知识性不确定性,实验结果表明,BEN 可以在现有的无模型方法失败的任务中学习到真正的贝叶斯最优策略。
Aug, 2023