高斯系统的最优强化学习
研究探讨了在连续时间内通过采用熵正则化奖励函数促进探索和利用现有知识之间达到的最佳折衷方案,提出使用行为分布的微分熵来规范化奖励函数的熵正则化,并通过高斯分布表征推导出最佳反馈控制分布来平衡利用和探索性搜索,最后通过熵正则化 LQ 问题的解法证明当探索比重衰减至零时,解法能够收敛于经典 LQ 问题的解。
Dec, 2018
本文提出了利用高斯过程回归中自然产生的信息理论特性的主动学习策略,尊重系统动态 imposed 约束下的抽样过程,并在高不确定度区域选择抽样点,以实现探索性行为和数据高效训练。该方法在大量数值基准测试中得到验证。
Nov, 2019
我们介绍了一个基于模型的强化学习算法,使用非线性常微分方程来表示连续时间动力学。我们使用校准良好的概率模型捕捉认识不确定性,并利用乐观原则进行探索。我们的分析表明,在连续时间下,测量选择策略 (MSS) 的重要性显现出来,因为我们不仅需要决定如何进行探索,还要决定何时观察底层系统。当使用高斯过程 (GP) 对常见的 MSS 选择(如等距采样)建模 ODEs 时,我们的后悔界限是次线性的。此外,我们提出了一种自适应的、数据依赖的实际 MSS,当与 GP 动力学相结合时,也能够在明显更少的样本下达到次线性的后悔。在几个应用上,我们展示了连续时间建模相对于离散时间建模的优势,以及我们提出的自适应 MSS 相对于标准基线的优势。
Oct, 2023
本文介绍了一种模型基于策略搜索的自动学习方法,使用概率非参数高斯过渡模型从数据中提取更多信息,以提高学习速度并降低模型误差的影响,已在真实机器人和控制任务中得到了应用。
Feb, 2015
使用高斯过程作为灵活的模型并使用高斯过程回归直接从稠密数据集中计算估计,开发出一种非参数方法来估计随机微分方程组中的漂移和扩散函数,并开发了一种近似的期望最大化算法来处理稀疏观察之间的未观察到的潜在动态。
Feb, 2017
这篇论文研究了学习在黑盒游戏中的挑战,其中底层效用函数对任何代理都是未知的。通过实证查询的形式,我们提供了一种利用高斯过程来识别这类游戏中平衡点的无悔学习算法。我们的方法不仅确保了理论上的收敛速率,还通过实验验证在各种游戏中的有效性。
May, 2024
本文提出了在非 Markovian、非 ergodic 且只部分可观察的环境下进行强化学习的问题。作者建立了贝叶斯强化学习代理的负面结果,并证明 Thompson 采样在随机环境中是渐进最优的。此外,作者构建了一个大但可计算的类,展示了基于 Thompson 采样的代理在这个类中收敛于任意未知可计算多智能体环境中的纳什均衡。
Nov, 2016
提出了一种基于高斯过程和最大方差缩减算法的模型基础方法,用于学习多输出名义转移动力学,克服了强化学习中的若干挑战,并在分布移位方面展示了算法的鲁棒性以及样本数量上的优越性。
Sep, 2023
本文提出一种基于模型行动选择的强化学习方法,该方法在价值函数的潜在特征空间中学习动态模型,实现机器人和环境的动态表示和模型自我激励,从而解决传统方法当中的探索与利用权衡问题,并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能,重点是改善探索。
Apr, 2018