在连续状态空间中学习潜在的决策感知模型用于强化学习
综述了强化学习的优化和控制方法,重点关注连续控制应用。通过一个最简单和最研究的问题 - 线性二次调节器(LQR)的案例研究,描述了从学习理论和控制理论的融合可以提供LQR性能的非渐进特征,并表明这些特征趋向于匹配实验行为。同时,探讨了设计与不确定环境安全可靠交互的学习系统所面临的挑战以及强化学习和控制领域所提供的工具可能如何应对这些挑战。
Jun, 2018
本文介绍了一种基于深度强化学习的算法,通过学习潜在表示来加速图像的强化学习,提出了随机潜在Actor-Critic(SLAC)算法,并表明其在图像控制任务上的表现优于其他无模型或基于模型的替代方案。
Jul, 2019
本文介绍了一种新的基于模型的强化学习算法,通过利用学习到的模型和策略经过多个时间步长的路径导数来构建策略优化算法,同时通过学习一个演员评论家,使用终端值函数避免了通过多个时间步长的不稳定性。结果显示,该方法比现有的最先进的基于模型的算法在样本效率上更为一致,并且与基于模型的算法达到了基于模型的算法无法达到的渐近性能,而且具有可扩展性。
May, 2020
本文提出了一种将单智能体控制转化为多智能体协作学习的方法——将动作离散化并结合价值分解,从而将Q-learning方法应用于高维连续动作空间的情况,能够在学习来自特征或像素的信息的情况下与最先进的连续动作优化技术相匹敌,并在多种连续控制任务中表现出强大的性能。
Oct, 2022
我们设计了一个决策感知的联合目标来训练演员和评论家,以解决演员的最优目标与评论家的最小化TD误差目标不匹配的问题,并提出了一个通用的Actor-critic算法来处理任何函数逼近,在一些简单的赌博机示例中,我们证明了提出的评论家目标的好处。最后,我们在简单的RL问题上通过实验证明了决策感知的Actor-critic框架的好处。
May, 2023
我们介绍了一个基于模型的强化学习算法,使用非线性常微分方程来表示连续时间动力学。我们使用校准良好的概率模型捕捉认识不确定性,并利用乐观原则进行探索。我们的分析表明,在连续时间下,测量选择策略(MSS)的重要性显现出来,因为我们不仅需要决定如何进行探索,还要决定何时观察底层系统。当使用高斯过程(GP)对常见的MSS选择(如等距采样)建模ODEs时,我们的后悔界限是次线性的。此外,我们提出了一种自适应的、数据依赖的实际MSS,当与GP动力学相结合时,也能够在明显更少的样本下达到次线性的后悔。在几个应用上,我们展示了连续时间建模相对于离散时间建模的优势,以及我们提出的自适应MSS相对于标准基线的优势。
Oct, 2023
本研究针对深度强化学习(DRL)中探索效率不足的问题,提出了一种新颖的贝叶斯演员-评论家算法,旨在提升环境的有效探索能力。通过理论研究和实证评估,证明该方法在标准基准和先进评估套件上的优越性,预计将为强化学习社区提供重要的工具和基础。
Aug, 2024
本研究解决了当前强化学习在实际应用中需要超越人类反应能力而带来的决策频率过慢的问题。提出的序列强化学习(SRL)算法能够在较低决策频率下生成有效的动作序列,利用"时间回忆"机制提高学习信号的效率。实验结果表明,SRL在多个连续控制任务上表现优异,并显著降低了样本复杂度,适用于需要可变决策频率的应用。
Oct, 2024
本研究针对强化学习在一般潜在动态下的应用,填补了统计和算法原则理解的空白。论文提出了使统计性质可处理的潜在推前覆盖性条件,并开发了有效的可观察到潜在转换方法,开启了潜在动态下强化学习的统一理论的新方向。
Oct, 2024