基于模型的强化学习的实验设计视角

ICLRDec, 2021

基于模型的强化学习的实验设计视角

An Experimental Design Perspective on Model-Based Reinforcement Learning

Viraj Mehta, Biswajit Paria, Jeff Schneider, Stefano Ermon, Willie Neiswanger

TL;DR本文提出利用贝叶斯最优实验设计思想指导选择状态 - 动作对查询以达到高效学习的方法，即提出一种衡量一个状态 - 动作对对马尔可夫决策过程的最优解提供多少信息的获取函数，在每次迭代中，我们的算法最大化这个获取函数，选择提供最多信息的状态 - 动作对被查询，从而获得高效的数据驱动强化学习方法；在多个连续控制问题上实验，相比于基于模型或无模型的 RL 基线方法，本文方法学习出的最优策略所需样本量减少了 5-1000 倍。

Abstract

In many practical applications of rl, it is expensive to observe state transitions from the environment. For example, in the problem of plasma control for nuclear fusion, computing the next state for a given state-action pair requires querying an expensive transition function which can

rl bayesian optimal experimental design data-efficient policy learning markov decision process

发现论文，激发创造

科学发现与测量成本 -- 在强化学习中平衡信息和成本

本论文提出了一种框架，可使深度强化学习算法在科学应用方面实现选择行动和决定是否在每个时间步长测量系统当前状态的策略，以平衡获取信息和信息成本。结果表明，当在此模式下训练时，Dueling DQN 和 PPO 代理可以学习到最优行动策略，同时进行的状态测量可以降低 50％，而递归神经网络可以使测量降低 50％以上。

Dec, 2021

基于邻近状态的强化学习探索

本文研究了强化学习中的探索开发平衡问题，并提出两种基于邻近状态的无模型探索算法，其中一种方法（${ho}$-explore）在离散环境中相比于基准算法 Double DQN，在评估奖励回报方面提高了 49％。

Dec, 2022

为了最小化观测成本的主动测量强化学习

本研究提出了一种名为活跃测量 RL（Amrl）的框架，其中代理学习最大化加权回报，以平衡奖励和观察成本。我们的实证评估表明，Amrl-Q 代理能够在在线训练期间并行学习策略和状态估计器。通过使用主动策略，Amrl-Q 实现了更高的加权回报，而且学习速度与标准 Q-learning 和 Dyna-Q 相似。

May, 2020

强化学习中的概率推理正确实施

强化学习中，通过马尔科夫决策过程的图形模型，以概率推理的方式对各状态 - 行为对的访问概率进行研究。本研究采用贝叶斯方法，严格处理了状态 - 行为优化的后验概率，并阐明了其在马尔科夫决策过程中的流动方式。通过引入变分贝叶斯近似方法，得到了一个可行的凸优化问题，建立的策略也能有效地进行探索。该方法称为 VAPOR，与汤普森抽样、K 学习和最大熵探索有着紧密的联系。通过一些实验，展示了深度强化学习版本 VAPOR 在性能上的优势。

Nov, 2023

强化学习中的无模型主动探索

采用信息论的观点，我们研究强化学习中的探索问题，并提出了一种新颖的无模型解决方案，通过推导实例特定的下界以及最优的探索策略，我们衍生出一种基于集成模型的无模型探索策略，适用于表格和连续马可夫决策过程，数值结果表明我们的策略能够比最先进的探索方法更快地找到高效的策略。

Jun, 2024

对比例子为基础的控制

基于示例的学习方法提出了一种离线控制方法，该方法学习了一个隐式模型来表示多步转变的 Q 值，并在状态和图像离线控制任务中优于基准方法并展现了对数据集规模的提升和鲁棒性。

Jul, 2023

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用 2 倍样本，比模型自由方法少用 200 倍样本。

Oct, 2022

用于强化学习的快速生成模型的学习和查询

在模型基强化学习中，精心设计的生成模型 —— 状态空间模型可以学习和操作紧凑的状态表述，并且显著降低动作序列预测的计算成本。在广泛的实验中，状态空间模型可以精确捕捉 Atari 游戏的动态，并且提供了高速计算，这使它们在强化学习的决策中具有实用价值。

Feb, 2018

在局部观测下，结合信息寻求探索和奖励最大化：统一的连续状态和行动空间推断

本研究提出了一种新的统一原理来实现信息寻求和奖励最大化，将主动推理与强化学习结合起来，不仅解决了各自的局限性，同时还具有超越传统方法的探索新颖奖励的性能。

Dec, 2022

强化学习中的计算统计差距

本文针对强化学习中的大状态空间问题，研究使用函数逼近的强化学习方法，并提出了寻找高效率算法的方案，同时探讨了计算难度与统计问题之间的关系。

Feb, 2022