VariBAD：基于元学习的 Bayes - 自适应深度强化学习的非常好方法

ICLROct, 2019

VariBAD：基于元学习的 Bayes - 自适应深度强化学习的非常好方法

VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning

Luisa Zintgraf, Kyriacos Shiarlis, Maximilian Igl, Sebastian Schulze, Yarin Gal...

TL;DR本研究提出了一种元学习方法 —— 变分 Bayes 适应深度强化学习 (variBAD)，用于在未知环境中进行结构化在线探索，通过直接考虑任务不确定性进行动作选择，在 MuJoCo 领域的实验证明，相较于现有方法，variBAD 能够获得更高的在线收益。

Abstract

Trading off exploration and exploitation in an unknown environment is key to maximising expected return during learning. A bayes-optimal policy

exploration exploitation bayes-optimal policy varibad meta-rl

发现论文，激发创造

BADDr: 基于贝叶斯适应性的深度 Dropout RL 用于 POMDPs

本文提出了一种表示无关的、针对部分可观测情况下的贝叶斯强化学习的理论框架，并提出了一种基于 dropout 网络的新方法 BADDr，旨在解决 BRL 方法在拓展性上存在的瓶颈，并证实其在处理规模较大的情况时的有效性。

Feb, 2022

反差式贝叶斯自适应深度强化学习

本文提出了一种基于对比学习方法的元 RL 算法 ContraBAR，可以在状态观测及基于图像观测的领域中有效地学习 Bayes 最优行为，并可以与图像增强相结合，用于领域随机化，并可以无缝地应用于在线和离线元 RL 设置。

Jun, 2023

深度多智能体强化学习的贝叶斯行动解码器

使用 Bayesian action decoder（BAD）的公开信念马尔可夫决策过程（public belief MDP）算法，成功在 Hanabi 卡牌游戏中超越了所有以前发表的学习方法和手动编写方法，创立了新的最先进水平。

Nov, 2018

离线元学习探索

通过离线数据，基于贝叶斯强化学习视角提出 Offline Meta Reinforcement Learning 问题，研究如何设计元智能体以快速最大化相同任务分布下不同任务中的奖励收益，探究探索策略、MDP 歧义以及稀疏奖励任务等相关问题，最终拥有超越离线数据中单个 RL 代理的探索策略。

Aug, 2020

基于方差的奖励函数用于近似贝叶斯强化学习

提出了一种基于后验概率分布的奖励加成方法，用于在 Bayesian RL 中解决探索与利用之间的困境，实现高效且有效的探索，能够利用结构化的先验知识，并证明其具有多项式样本复杂度。

Mar, 2012

元学习对抗性赌博机

本文研究了跨多任务的在线学习问题，设计了一个统一的元算法，旨在优化平均性能。该算法在多臂老虎机和乐观线性优化两个重要情境下提供了特定保证，通过任务平均后悔的降低来提高性能。

May, 2022

元学习对抗强盗算法

该论文研究了具有 bandit feedback 的在线元学习，目的是通过某种自然的相似性度量改善类似的多个任务的性能。

Jul, 2023

基于贝叶斯优化的子目标探索

本文提出了一种基于代价感知的贝叶斯优化方法，旨在通过动态子目标的一系列探索策略来克服稀疏奖励、高昂交互和噪声等挑战，实现在未知分布环境下的政策学习。在实验评估中，平均而言，所提出的算法在问题领域上的表现优于 MAML 元学习算法 19％，超参数调整方法 Hyperband 23％，BO 技术 EI 和 LCB 分别为 24％和 22％。

Oct, 2019

使用基于样本的搜索实现高效的贝叶斯自适应强化学习

本研究提出了一种基于蒙特卡洛树搜索 (Monte-Carlo tree search) 的可行的、基于样本的近似贝叶斯最优规划方法，它避免了在搜索树中昂贵的应用贝叶斯规则，通过从当前信念中懒惰地抽样模型。实验证明，与以前的贝叶斯模型为基础的 RL 算法相比，在几个知名的基准问题上，我们的方法表现出了明显的优势。

May, 2012

贝叶斯探索网络

贝叶斯强化学习在面对不确定性的顺序决策问题中提供了一种原则性和优雅的方法，但其主要挑战是在高维状态转移分布中建模不确定性的计算复杂性。本文提出了一种新颖的无模型方法来解决这个挑战，通过在一维贝尔曼算子中建模不确定性，引入贝叶斯探索网络 (BEN)，通过正态化流来建模贝尔曼算子中的不确定性，并通过变分推断来建模知识性不确定性，实验结果表明，BEN 可以在现有的无模型方法失败的任务中学习到真正的贝叶斯最优策略。

Aug, 2023