本文介绍了一种用于具有延迟反馈环境中的控制问题的新的强化学习方法,该方法采用了随机规划而非以前使用的确定性规划方法,从而在策略优化问题中嵌入了风险偏好。我们展示了该方法能够恢复具有确定性转换的问题的最优策略,并将其与文献中的两种先前方法进行对比。我们将该方法应用于简单任务以了解其特点,然后比较了这些方法在控制多个 Atari 游戏方面的性能。
Feb, 2024
研究分析了随机延迟环境中的多步价值估计问题,提出了一种基于 Soft Actor-Critic 的延迟校正 Actor-Critic 算法来解决,实验证明其在 MuJoCo 连续控制环境中具有显著的性能优势。
Oct, 2020
本文提出了基于概率模型预测控制(MPC)的基于模型的 RL 框架,以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响,同时使用 MPC 找到最小化预期长期成本的控制序列,以达到在受限环境下使用 RL 的目的。
Jun, 2017
该研究提出了延迟感知的马尔可夫决策过程的正式定义,并证明它可以通过使用马尔可夫奖励过程中的增强状态转化为标准 MDP。我们开发了一个延迟感知的模型驱动强化学习框架,可以将多步延迟纳入学习到的系统模型中,而无需进行学习。 与 Gym 和 MuJoCo 平台进行的实验表明,与非策略模型无关的强化学习方法相比,所提出的延迟感知模型驱动算法在训练和各种延迟时间系统之间具有更高的效率和可传递性。
May, 2020
连续时间非线性最优控制问题中的强化学习方法面临复杂性、数值条件和维度扩展等挑战。该论文介绍了新的强化学习算法,应用于仿射非线性系统的控制,并引入了新的激发框架以优化性能。
Jul, 2023
通过使用泊松时钟模型与连续时间,本研究旨在克服强化学习中离散时间与离散状态的局限性,并且提出了一个算法来应对连续时间下的学习和规划任务,其在近连续时间中实现了阶悔恨度为 $\tilde {\mathcal {O}}(\sqrt {T})$ 的性能。
Sep, 2023
该研究论文提出了一种用于动态系统的模型预测控制(MPC)方法,该方法利用深度神经网络(NNs)对系统的非线性和不确定性进行建模,并提出了两种用于解决 MPC 问题的方法:混合整数规划(MIP)方法和线性松弛(LR)方法。进行了广泛的数值模拟来演示和比较 MIP 和 LR 方法的性能。
May, 2024
研究关于延迟对动态系统、马尔可夫决策过程、强化学习和实证结果的影响。
通过解决 MPC 控制器在现实场景下系统识别学习失败的问题,将其转化为部分观察马尔科夫决策过程,通过循环强化学习不断地适应动态模型参数,该论文提出了一种自适应控制算法 (MPC-RRL),最终在 CARLA 模拟器中得出了具有鲁棒性和可靠性的自动驾驶控制效果。
Jan, 2023
通过增强学习实现自适应控制方法来处理时延控制问题,通过采用模型式增强学习方法,该方法能够稳定解决在 290ms 以内的时延通信问题。
May, 2023