强化学习的信息理论状态变量选择

Jan, 2024

强化学习的信息理论状态变量选择

Information-Theoretic State Variable Selection for Reinforcement Learning

Charles Westphal, Stephen Hailes, Mirco Musolesi

TL;DR在本论文中，我们介绍了一种用于强化学习（RL）的信息论准则 Transfer Entropy Redundancy Criterion (TERC)，该准则确定了训练过程中是否从状态变量到动作变量传递了信息熵。基于 TERC 的算法能够排除对智能体最终性能没有影响的状态变量，从而提高样本利用效率。实验证明这种加速方式在不同算法类别和各种环境中都存在。为了突出与现有特征选择方法的区别，我们在合成数据上进行了一系列对照实验，并推广到现实世界的决策任务。我们还引入了一种用贝叶斯网络紧凑地捕捉状态变量到动作变量的信息传递的问题表征。

Abstract

Identifying the most suitable variables to represent the state is a fundamental challenge in reinforcement learning (RL). These variables must efficiently capture the information necessary for making optimal decisions. In order to address this problem, in this paper, we introduce the T

reinforcement learning transfer entropy redundancy criterion (terc)sample efficient learning feature selection approaches bayesian networks

发现论文，激发创造

使用值条件状态熵探索加速强化学习

本文提出了一种基于价值条件下的状态熵探索技术，该技术通过最大化条件价值估计的状态熵的平均值，分别估计每个状态的状态熵，再通过只考虑状态价值估计相似的访问状态来计算内在奖励，从而避免了低价值状态分布影响高价值状态周围的探索，加速了多种 RL 算法在各种任务中的表现。

May, 2023

信息瓶颈下的传递和探索

提出了一种利用信息瓶颈机制学习判决状态的增值方法，通过对观察的状态进行分析，识别有潜力的子目标进行新的探索，并指导代理经过判决状态和状态空间的新区域。

Jan, 2019

强化学习中的表示时间解耦以提高泛化能力

通过引入时间分离（TED）作为强化学习辅助任务，可以更好地利用序列化 RL 观察结果，学习更健壮的表示形式，从而使 RL 算法对未知环境变量的变化更快地适应。

Jul, 2022

强化学习中的状态表示选择

该研究论文研究了强化学习中选择正确的状态表示问题，提出了一种算法在不知道正确模型的情况下获得尽可能多的奖励。

Feb, 2013

基于模型的强化学习的实验设计视角

本文提出利用贝叶斯最优实验设计思想指导选择状态 - 动作对查询以达到高效学习的方法，即提出一种衡量一个状态 - 动作对对马尔可夫决策过程的最优解提供多少信息的获取函数，在每次迭代中，我们的算法最大化这个获取函数，选择提供最多信息的状态 - 动作对被查询，从而获得高效的数据驱动强化学习方法；在多个连续控制问题上实验，相比于基于模型或无模型的 RL 基线方法，本文方法学习出的最优策略所需样本量减少了 5-1000 倍。

Dec, 2021

潜在状态边际化：改善探索的低成本方法

本文介绍了一种称为 SMAC 的算法，它使用最大熵强化学习框架中的潜在变量策略来提高探索和稳健性能力，并在连续控制任务上进行实验验证。

Oct, 2022

一种用于动作 - 状态熵正则化奖励最大化的通用马尔可夫决策过程形式化方法

提供将约束优化问题转换为无约束凸优化问题的一般性双重函数形式主义，适用于动作和状态熵的任意混合，其中，动作熵和状态熵的纯形式被理解为混合的极限。这解决了前人关于动作、状态和混合熵正则化、纯探索和空间占用等问题的解决方案很麻烦的难题。

Feb, 2023

具有潜在动态信息的可证明样本效率强化学习

本文研究了在观测结果高维的情况下，强化学习智能体如何使用对状态空间结构的抽象知识来学习目标领域中的任务。提出了一种名为 TASID 的算法，该算法学习目标任务的健壮策略，其采样复杂度是地平线次数的多项式，并且可以利用先前的知识独立于状态数。

May, 2022

增强学习中的引导式表示学习

本文研究了强化学习中的状态表示问题，发现时序差分学习与蒙特卡罗、残差梯度学习在大部分环境的特征学习上存在差异，本文提出的新的辅助学习规则在经典环境下具有较好表现。

Jun, 2023

可证明高效的最大熵探索

该研究采用条件梯度法，利用近似 MDP 求解器提供高效算法，解决了在没有奖励信号的情况下对一类内在目标进行优化的问题。

Dec, 2018