基于价值限制的无模型连续控制

Feb, 2019

Value constrained model-free continuous control

Steven Bohez, Abbas Abdolmaleki, Michael Neunert, Jonas Buchli, Nicolas Heess...

TL;DR提出了一种基于 Lagrangian relaxation 的约束强化学习方法，通过同时优化任务奖励和某些辅助成本来确保任务成功，展示了在连续控制基准任务、优化能量的四足动物运动任务以及实际机器人臂夹取任务上，该方法的有效性。

Abstract

The naive application of reinforcement learning algorithms to continuous control problems -- such as locomotion and manipulation -- often results in policies which rely on high-amplitude, high-frequency control signals, known colloquially as bang-bang control. Although such solutions m

reinforcement learning continuous control multi-objective optimization constraint-based reinforcement learning task success

发现论文，激发创造

增长型 Q 网络：用自适应控制分辨率解决连续控制任务

近期的强化学习方法在解决连续控制基准问题时表现出了令人惊讶的强大能力，通过粗糙的动作空间离散化实现了有利的探索特性，而在没有动作惩罚的情况下，最终性能并不明显受到影响。本文旨在通过从粗控制到细控制的分辨率增长，结合解耦的 Q 学习最新成果，将我们的方法扩展到高维动作空间，最多达到 dim (A) = 38。我们的研究表明，自适应控制分辨率结合价值分解可以得到仅用于评论的简单算法，在连续控制任务上表现出令人惊讶的强大性能。

Apr, 2024

不仅有奖励还有约束：应用于四肢机器人的运动

通过提出一种新颖的深度强化学习框架，我们展示了可用于训练复杂机器人系统的神经网络控制器，该框架通过引入约束条件减少了奖励工程的工作量，并实现了较高的任务绩效。

Aug, 2023

强化学习之旅：从连续控制视角出发

综述了强化学习的优化和控制方法，重点关注连续控制应用。通过一个最简单和最研究的问题 - 线性二次调节器（LQR）的案例研究，描述了从学习理论和控制理论的融合可以提供 LQR 性能的非渐进特征，并表明这些特征趋向于匹配实验行为。同时，探讨了设计与不确定环境安全可靠交互的学习系统所面临的挑战以及强化学习和控制领域所提供的工具可能如何应对这些挑战。

Jun, 2018

电厂监控的安全强化学习算法

我们提出了基于近端策略优化的概率约束强化学习算法，通过使用 Lagrangian relaxation 将约束优化问题转换为无约束目标，从而在先进的核电厂设计中实现了最小违规距离和违规率。

Jan, 2024

通过转移模型学习连续控制策略

通过学习过渡模型，我们可以使用它来驱动摊销政策的学习。因此，我们重访了政策优化并描述了一个模块化神经网络架构，该架构从预测错误中同时学习了系统动力学和生成适当连续控制命令的随机策略，并通过与线性二次调节器的基线进行比较来评估模型。

Sep, 2022

基于数据驱动的实时高效强化学习算法的 H∞控制：应用于自动化移动出行系统

基于 Q 学习的算法解决线性离散时间系统的 H∞控制，并实现了模型无关的参数在线学习，从而将计算复杂性降低到 qu 的平方，其中 q 是状态变量、控制输入和干扰大小之和。

Sep, 2023

主动学习强化学习：一种随机最优控制方法

本文提供了一个应对强化学习的框架，解决了建模不确定性和计算成本高的问题，通过使用强化学习来解决随机动态规划方程，所得的强化学习控制器对多种类型的约束条件是安全的，并且可以主动学习建模不确定性，实现实时学习。通过模拟实例证明了提出方法的有效性。

Sep, 2023

带有平滑对数障碍函数的有约束强化学习

我们提出了一种新的约束强化学习方法，称为 CSAC-LB（具有对数势函数的约束软 Actor-Critic）。通过将线性平滑对数势函数应用于附加的安全评论家，它实现了适应性政策学习的惩罚，并减轻了对数势函数方法应用中已知的数值问题，从而在几个不同难度的约束控制任务上实现了最先进的性能，并在真实的四足机器人平台上评估了我们的方法。

Mar, 2024

机器人控制的残余强化学习

本文研究了如何通过将传统反馈控制方法与强化学习相结合，解决包括接触力和摩擦力在内的现代制造业中的机器人控制问题，并通过培训代理来演示我们的方法，成功地执行现实世界的块装配任务。

Dec, 2018

通过 Q 学习解决连续控制问题

本文提出了一种将单智能体控制转化为多智能体协作学习的方法 —— 将动作离散化并结合价值分解，从而将 Q-learning 方法应用于高维连续动作空间的情况，能够在学习来自特征或像素的信息的情况下与最先进的连续动作优化技术相匹敌，并在多种连续控制任务中表现出强大的性能。

Oct, 2022