反馈放松控制的规律性与稳定性

MMJan, 2020

Regularity and stability of feedback relaxed controls

Christoph Reisinger, Yufei Zhang

TL;DR本文提出了一种基于松弛控制正则化和一般探索奖励的鲁棒反馈控制方法，针对多维连续随机离散时间问题，提出了一种实现鲁棒决策的强化学习启发式方法，该方法表现出强大的鲁棒性，并在参数扰动下稳定可靠。

Abstract

This paper proposes a relaxed control regularization with general exploration rewards to design robust feedback controls for multi-dimensional continuous-time stochastic exit time problems. We establish that the

feedback control regularization stochastic exit time problems exploration rewards robustness

发现论文，激发创造

强化学习中的探索与利用：一种随机控制方法

研究探讨了在连续时间内通过采用熵正则化奖励函数促进探索和利用现有知识之间达到的最佳折衷方案，提出使用行为分布的微分熵来规范化奖励函数的熵正则化，并通过高斯分布表征推导出最佳反馈控制分布来平衡利用和探索性搜索，最后通过熵正则化 LQ 问题的解法证明当探索比重衰减至零时，解法能够收敛于经典 LQ 问题的解。

Dec, 2018

关于 Lipschitz 连续控制问题的稳定性及其在强化学习中的应用

我们研究了模型无关的强化学习环境下 Hamilton-Jacobi-Bellman 方程的稳定性属性，特别是对于 Lipschitz 连续最优控制问题。通过在动力学和奖励函数中引入结构假设，我们进一步研究了值函数的收敛速度。此外，我们引入了一个广义框架，用于处理包含原始问题的 Lipschitz 连续控制问题，并基于此提出了一种新的基于 HJB 的强化学习算法。通过与现有方法的比较，我们测试了所提方法的稳定性和性能，并使用众所周知的基准示例进行了验证。

Apr, 2024

稳定性认证强化学习：控制理论视角

论文研究了通过调节策略的输入输出梯度，可以基于可行性半定规划问题获得健壮稳定性的保证，并通过应用于两个去中心化控制任务，证明强化学习代理可以在稳定控制参数空间中具有高性能和长期稳定的学习行为。

Oct, 2018

稳定强化学习控制：用于优化所有稳定行为的模块化框架

我们提出了一个结合深度强化学习优化驱动和无模型优势，通过使用 Youla-Kucera 参数化来定义搜索域提供稳定性保证的反馈控制器设计框架。通过最近在行为系统中的进展，我们能够构建基于数据驱动的内部模型，使得 Youla-Kucera 参数化的备选实现完全基于输入 - 输出探索数据。此外，我们还给出了一个矩阵分解方法来明确表示所有稳定线性算子的集合，用于深度强化学习代理的训练。最后，我们还展示了如何将这些思想应用于调整固定结构控制器。

Oct, 2023

在线非线性控制的信息论遗憾界

该研究针对未知的非线性动态系统问题，提出了一种基于再生核希尔伯特空间的顺序控制算法，并通过信息理论量来获得近乎最优的遗憾上界，实验结果表明其在多个非线性控制任务中均获得了较好的表现。

Jun, 2020

强化学习和最优控制中价值函数的连续性和光滑性

价值函数在强化学习和最优控制中是衡量代理人累积未来回报的关键指标，研究相邻状态的价值相似性以及价值函数的连续性具有重要意义。本文提供并验证了价值函数连续性的上界界限，并证明了在对底层系统有弱假设的情况下，价值函数总是 H"older 连续的，并且可以通过轻微扰动系统使非可微的价值函数变得可微。

Mar, 2024

降低方差强化学习的控制规范化

介绍了一种基于功能正则化方法的强化学习中的高性能方案，可以相对于一个策略先验进行行为的规则化，进而获得偏差 - 方差的平衡来降低高方差的挑战，并通过自适应调整策略先验，保证稳定性和更高的学习效率

May, 2019

显式利普希茨值估计增强策略对扰动的稳健性

在机器人控制任务中，强化学习（RL）在模拟中训练的策略在部署到物理硬件上时常常出现性能下降的问题，本文研究了通过利普希茨正则化来改善近似值函数的梯度条件，从而提高训练后的鲁棒性。通过将利普希茨正则化与快速梯度符号方法相结合，我们的实验结果表明了这种方法在一些连续控制基准测试中的优势。

Apr, 2024

离散时间静态输出反馈策略梯度方法的优化景观

静态输出反馈控制中政策梯度方法在离散时间线性时不变系统中的优化性质的分析

Oct, 2023

基于价值限制的无模型连续控制

提出了一种基于 Lagrangian relaxation 的约束强化学习方法，通过同时优化任务奖励和某些辅助成本来确保任务成功，展示了在连续控制基准任务、优化能量的四足动物运动任务以及实际机器人臂夹取任务上，该方法的有效性。

Feb, 2019