高斯系统的最优强化学习

NIPSJun, 2011

Optimal Reinforcement Learning for Gaussian Systems

Philipp Hennig

TL;DR本文研究了对于强化学习中的探索与利用之间的权衡，如果所有信念都是高斯过程，那么关于最优学习的解析陈述有多大程度的可能性。给出了非线性、时变系统在连续时间和空间中的损失和动态学习的一阶近似，受到动态学中相对较弱的限制，并描述了近似有限维投影如何有助于理解这一结果。

Abstract

The exploration-exploitation trade-off is among the central challenges of reinforcement learning. The optimal →

exploration exploitation reinforcement learning bayesian gaussian processes

发现论文，激发创造

强化学习中的探索与利用：一种随机控制方法

研究探讨了在连续时间内通过采用熵正则化奖励函数促进探索和利用现有知识之间达到的最佳折衷方案，提出使用行为分布的微分熵来规范化奖励函数的熵正则化，并通过高斯分布表征推导出最佳反馈控制分布来平衡利用和探索性搜索，最后通过熵正则化 LQ 问题的解法证明当探索比重衰减至零时，解法能够收敛于经典 LQ 问题的解。

Dec, 2018

主动学习高斯过程动力学

本文提出了利用高斯过程回归中自然产生的信息理论特性的主动学习策略，尊重系统动态 imposed 约束下的抽样过程，并在高不确定度区域选择抽样点，以实现探索性行为和数据高效训练。该方法在大量数值基准测试中得到验证。

Nov, 2019

连续时间模型驱动强化学习中的高效探索

我们介绍了一个基于模型的强化学习算法，使用非线性常微分方程来表示连续时间动力学。我们使用校准良好的概率模型捕捉认识不确定性，并利用乐观原则进行探索。我们的分析表明，在连续时间下，测量选择策略 (MSS) 的重要性显现出来，因为我们不仅需要决定如何进行探索，还要决定何时观察底层系统。当使用高斯过程 (GP) 对常见的 MSS 选择（如等距采样）建模 ODEs 时，我们的后悔界限是次线性的。此外，我们提出了一种自适应的、数据依赖的实际 MSS，当与 GP 动力学相结合时，也能够在明显更少的样本下达到次线性的后悔。在几个应用上，我们展示了连续时间建模相对于离散时间建模的优势，以及我们提出的自适应 MSS 相对于标准基线的优势。

Oct, 2023

高斯过程学习非线性动力学

科学机器学习中，通过贝叶斯推断模型参数，利用状态数据和相关性构建似然函数，从而学习非线性动力学模型。

Dec, 2023

机器人和控制中的高斯过程数据有效学习

本文介绍了一种模型基于策略搜索的自动学习方法，使用概率非参数高斯过渡模型从数据中提取更多信息，以提高学习速度并降低模型误差的影响，已在真实机器人和控制任务中得到了应用。

Feb, 2015

随机微分方程的近似贝叶斯学习

使用高斯过程作为灵活的模型并使用高斯过程回归直接从稠密数据集中计算估计，开发出一种非参数方法来估计随机微分方程组中的漂移和扩散函数，并开发了一种近似的期望最大化算法来处理稀疏观察之间的未观察到的潜在动态。

Feb, 2017

通过高斯过程在黑盒游戏中进行纳什均衡的无悔学习

这篇论文研究了学习在黑盒游戏中的挑战，其中底层效用函数对任何代理都是未知的。通过实证查询的形式，我们提供了一种利用高斯过程来识别这类游戏中平衡点的无悔学习算法。我们的方法不仅确保了理论上的收敛速率，还通过实验验证在各种游戏中的有效性。

May, 2024

非参数通用强化学习

本文提出了在非 Markovian、非 ergodic 且只部分可观察的环境下进行强化学习的问题。作者建立了贝叶斯强化学习代理的负面结果，并证明 Thompson 采样在随机环境中是渐进最优的。此外，作者构建了一个大但可计算的类，展示了基于 Thompson 采样的代理在这个类中收敛于任意未知可计算多智能体环境中的纳什均衡。

Nov, 2016

大型状态空间下的分布鲁棒基于模型的强化学习

提出了一种基于高斯过程和最大方差缩减算法的模型基础方法，用于学习多输出名义转移动力学，克服了强化学习中的若干挑战，并在分布移位方面展示了算法的鲁棒性以及样本数量上的优越性。

Sep, 2023

利用隐空间动态模型的信息最大化探索

本文提出一种基于模型行动选择的强化学习方法，该方法在价值函数的潜在特征空间中学习动态模型，实现机器人和环境的动态表示和模型自我激励，从而解决传统方法当中的探索与利用权衡问题，并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能，重点是改善探索。

Apr, 2018