连续动作、状态和时间下的价值迭代

May, 2021

连续动作、状态和时间下的价值迭代

Value Iteration in Continuous Actions, States and Time

Michael Lutter, Shie Mannor, Jan Peters, Dieter Fox, Animesh Garg

TL;DR本论文提出了一种名为cFVI的算法，能够有效地将动态规划应用于连续状态和动作的控制环境中；在非线性控制实验中，cFVI的策略表现与强化学习方法的表现相当，但在应用到物理系统时更具鲁棒性且无需显式地融入鲁棒性优化。

Abstract

Classical value iteration approaches are not applicable to environments with continuous states and actions. For such environments, the states and actions are usually discretized, which leads to an exponential increase in computational complexity. In this paper, we propose continuous fitted va

发现论文，激发创造

通过随机值梯度学习连续控制策略

本文提出了一种使用反向传播学习连续控制策略的统一框架，并通过将贝尔曼方程中的随机性视为外源噪声的确定性函数，来支持随机控制。结果是一系列从有值函数的无模型方法到无值函数的有模型方法的通用策略梯度算法谱。我们使用学习模型，但只需要来自环境的观察而不是模型预测轨迹的观察，最大程度地减少复合模型错误的影响。我们首先将这些算法应用于一个玩具随机控制问题，然后在模拟中将其应用于几个基于物理的控制问题。其中一种变体SVG（1）显示了在连续领域同时学习模型，价值函数和策略的有效性。

Oct, 2015

基于模型的价值估计，用于高效的无模型强化学习

本文提出了一种基于模型的价值拓展方法，通过限制想象的深度，控制模型的不确定性，提高了模型自由强化学习算法中学习价值估计的样本复杂度，针对连续控制任务使用了学习到的动态模型。

Feb, 2018

强化学习之旅：从连续控制视角出发

综述了强化学习的优化和控制方法，重点关注连续控制应用。通过一个最简单和最研究的问题 - 线性二次调节器（LQR）的案例研究，描述了从学习理论和控制理论的融合可以提供LQR性能的非渐进特征，并表明这些特征趋向于匹配实验行为。同时，探讨了设计与不确定环境安全可靠交互的学习系统所面临的挑战以及强化学习和控制领域所提供的工具可能如何应对这些挑战。

Jun, 2018

基于模型的随机价值梯度在连续强化学习中的应用

本文探讨了基于模型的强化学习与基于模型的无模型强化学习的综合应用方法，发现在高维控制任务中，基于模型的策略评估方法比传统方法更有效。

Aug, 2020

层次强化学习的抽象值迭代

提出一种新的基于连续状态和动作空间的控制的分层强化学习框架，其中用户指定状态的子集作为子目标区域，然后学习这些子目标区域之间的转换，并在生成的抽象决策过程(ADP)中构建高层计划，通过计划在抽象层和在具体层上的学习相结合的一个实际算法，优于现有的分层强化学习算法。

Oct, 2020

预测与评估：通过潜在未来预测分解价值估计

本文提出了一种名为“Value Decomposition with Future Prediction”的强化学习算法，通过将价值函数分解为潜在未来动态部分和与策略无关的轨迹回报部分，提高了价值估计的准确性，并在OpenAI Gym连续控制任务和几种具有延迟奖励的任务中进行了实验证明其有效性。

Mar, 2021

针对多任务稀疏奖励环境的基于价值的连续控制机器人操作强化学习

本文研究如何利用基于价值的深度强化学习方法，通过使用改善技术来提高深度 Q学习（Deep Q learning）的效率，在多任务稀疏奖励机制下完成机器人操作任务。我们的实验表明，价值法比政策梯度法对数据增强和回放缓冲样本技术更加敏感，这些方法对于机器人操作的好处取决于生成的子目标状态的转移动力学。

Jul, 2021

模型强化学习中价值扩展方法的递减收益

本文对用于连续控制问题的一类基于模型的价值扩展方法中的样本效率的问题进行了研究，并通过实验表明，在提升普通动力学模型的准确性时所增加的样本效率 marginally，远远达不到与无模型方法相当的表现。

Mar, 2023

连续时间强化学习:新设计算法的理论洞见和性能保证

连续时间非线性最优控制问题中的强化学习方法面临复杂性、数值条件和维度扩展等挑战。该论文介绍了新的强化学习算法，应用于仿射非线性系统的控制，并引入了新的激发框架以优化性能。

Jul, 2023

连续的状态-动作空间中的近连续时间强化学习

通过使用泊松时钟模型与连续时间，本研究旨在克服强化学习中离散时间与离散状态的局限性，并且提出了一个算法来应对连续时间下的学习和规划任务，其在近连续时间中实现了阶悔恨度为$\tilde{\mathcal{O}}(\sqrt{T})$的性能。

Sep, 2023