广义强化学习：经验粒子、动作算子、强化场、记忆关联和决策概念

Aug, 2022

广义强化学习：经验粒子、动作算子、强化场、记忆关联和决策概念

Generalized Reinforcement Learning: Experience Particles, Action Operator, Reinforcement Field, Memory Association, and Decision Concepts

HTML

PDF

Po-Hsiang Chiu, Manfred Huber

TL;DR本文通过建立基于贝叶斯框架的泛化强化学习框架，引入参数动作模型和加强型场的概念，在 RL 策略搜索中追加高级决策概念，并使用加强型场作为补助带有度量的元记忆库，以建立和增强学习代理的演化世界模型。

Abstract

Learning a control policy that involves time-varying and evolving system dynamics often poses a great challenge to mainstream reinforcement learning algorithms. In most standard methods, actions are often assumed to be a rigid, fixed set of choices that are sequentially applied to the

发现论文，激发创造

使用任意参数模型和模型先验与自利代理进行贝叶斯最优互动的通用框架

提出了一种推广的贝叶斯强化学习方法，通过整合常见的参数模型和模型先验，实现了在自利多智能体环境中对其他智能体行为的精细和简洁表示，具有比现有方法更好的性能。

Apr, 2013

通过软更新降低强化学习中的噪声

提出 G-learning 算法用于强化学习领域，该算法通过对决策策略进行惩罚，实现了对值函数估计的减少偏差，从而在学习过程的初期能够有更快的收敛速度并降低学习成本。

Dec, 2015

基于上下文感知的模型动态学习在强化学习中的泛化应用

该论文提出了一种用于强化学习中学习动态全局模型的方法，通过将学习全局动态模型的任务分解为学习本地动态的上下文潜向量和条件预测下一个状态来实现此目的，并通过鼓励上下文潜向量在预测正向和反向动态方面有用来编码动态特定信息。该方法在各种模拟机器人控制任务中实现了优异的泛化能力，超过了现有的强化学习方案。

May, 2020

强化学习动态泛化中的轨迹多项选择学习

本文介绍一种新的基于模型的强化学习算法，名为trajectory-wise multiple choice learning，该算法通过学习多头动力学模型来实现动力学泛化，具有优异的零样本泛化性能。

Oct, 2020

基于模型的强化学习的实验设计视角

本文提出利用贝叶斯最优实验设计思想指导选择状态-动作对查询以达到高效学习的方法，即提出一种衡量一个状态-动作对对马尔可夫决策过程的最优解提供多少信息的获取函数，在每次迭代中，我们的算法最大化这个获取函数，选择提供最多信息的状态-动作对被查询，从而获得高效的数据驱动强化学习方法；在多个连续控制问题上实验，相比于基于模型或无模型的RL基线方法，本文方法学习出的最优策略所需样本量减少了5-1000倍。

Dec, 2021

基于模型的SINDy强化学习

利用物理学领域的最新进展，提出一种新的方法来发现强化学习中物理系统的控制非线性动态，并证明此方法能够在很少的轨迹采样数量（仅需要一次$≤30$时间步的轨迹）下发现此动态，从而为系统带来基于模型的强化学习的好处，并且不需要事先开发模型。该算法在四个控制问题上的实验表明，训练得到的基于控制系统真实动态的最优策略泛化能力强，且对于实际物理系统具有很好的性能表现。与现有的其他方法相比，该方法需要采样更少的真实物理系统轨迹。

Aug, 2022

通过自适应上下文感知策略在强化学习中实现动态概括

我们研究了如何将上下文信息引入行为学习以提高泛化性能，并引入了一个神经网络架构——决策适配器，该架构生成适配器模块的权重，并根据上下文信息调整智能体的行为。实验证明，与以往方法相比，决策适配器在几个环境中表现出更好的泛化性能，并且相对于一些替代方法，决策适配器对于无关变量的干扰更具鲁棒性。

Oct, 2023

强化学习中的迁移基础：知识模式分类

当代人工智能系统的不断发展需要相应的资源、大量数据集和计算基础设施，特别是在限制环境下的基础研究和应用中，知识的表示通过各种模态呈现，包括动力学和奖励模型、价值函数、策略和原始数据。该论文系统地讨论了这些模态，并基于其固有属性和与不同目标和机制之间的相互关系来进行讨论，以实现知识的迁移和推广，并分析了特定形式的转移出现或稀缺的原因，并强调从设计到学习的转移的重要性。

Dec, 2023

强化学习的广义控制论方法：理论与算法

我们提出了一个控制论强化学习方法，用于直接学习最优策略，并在这个方法的一个特定实例基础上建立了理论性质，并导出了一个算法。我们的实证结果证明了我们方法的显著优势。

Jun, 2024

深度强化学习中的高效探索：一种新颖的贝叶斯演员-评论家算法

本研究针对深度强化学习（DRL）中探索效率不足的问题，提出了一种新颖的贝叶斯演员-评论家算法，旨在提升环境的有效探索能力。通过理论研究和实证评估，证明该方法在标准基准和先进评估套件上的优越性，预计将为强化学习社区提供重要的工具和基础。

Aug, 2024