连续动作、状态和时间下的价值迭代
本文提出了一种使用反向传播学习连续控制策略的统一框架,并通过将贝尔曼方程中的随机性视为外源噪声的确定性函数,来支持随机控制。结果是一系列从有值函数的无模型方法到无值函数的有模型方法的通用策略梯度算法谱。我们使用学习模型,但只需要来自环境的观察而不是模型预测轨迹的观察,最大程度地减少复合模型错误的影响。我们首先将这些算法应用于一个玩具随机控制问题,然后在模拟中将其应用于几个基于物理的控制问题。其中一种变体SVG(1)显示了在连续领域同时学习模型,价值函数和策略的有效性。
Oct, 2015
本文提出了一种基于模型的价值拓展方法,通过限制想象的深度,控制模型的不确定性,提高了模型自由强化学习算法中学习价值估计的样本复杂度,针对连续控制任务使用了学习到的动态模型。
Feb, 2018
综述了强化学习的优化和控制方法,重点关注连续控制应用。通过一个最简单和最研究的问题 - 线性二次调节器(LQR)的案例研究,描述了从学习理论和控制理论的融合可以提供LQR性能的非渐进特征,并表明这些特征趋向于匹配实验行为。同时,探讨了设计与不确定环境安全可靠交互的学习系统所面临的挑战以及强化学习和控制领域所提供的工具可能如何应对这些挑战。
Jun, 2018
提出一种新的基于连续状态和动作空间的控制的分层强化学习框架,其中用户指定状态的子集作为子目标区域,然后学习这些子目标区域之间的转换,并在生成的抽象决策过程(ADP)中构建高层计划,通过计划在抽象层和在具体层上的学习相结合的一个实际算法,优于现有的分层强化学习算法。
Oct, 2020
本文提出了一种名为“Value Decomposition with Future Prediction”的强化学习算法,通过将价值函数分解为潜在未来动态部分和与策略无关的轨迹回报部分,提高了价值估计的准确性,并在OpenAI Gym连续控制任务和几种具有延迟奖励的任务中进行了实验证明其有效性。
Mar, 2021
本文研究如何利用基于价值的深度强化学习方法,通过使用改善技术来提高深度 Q学习(Deep Q learning)的效率,在多任务稀疏奖励机制下完成机器人操作任务。我们的实验表明,价值法比政策梯度法对数据增强和回放缓冲样本技术更加敏感,这些方法对于机器人操作的好处取决于生成的子目标状态的转移动力学。
Jul, 2021
本文对用于连续控制问题的一类基于模型的价值扩展方法中的样本效率的问题进行了研究,并通过实验表明,在提升普通动力学模型的准确性时所增加的样本效率 marginally,远远达不到与无模型方法相当的表现。
Mar, 2023
连续时间非线性最优控制问题中的强化学习方法面临复杂性、数值条件和维度扩展等挑战。该论文介绍了新的强化学习算法,应用于仿射非线性系统的控制,并引入了新的激发框架以优化性能。
Jul, 2023
通过使用泊松时钟模型与连续时间,本研究旨在克服强化学习中离散时间与离散状态的局限性,并且提出了一个算法来应对连续时间下的学习和规划任务,其在近连续时间中实现了阶悔恨度为$\tilde{\mathcal{O}}(\sqrt{T})$的性能。
Sep, 2023