反馈放松控制的规律性与稳定性
研究探讨了在连续时间内通过采用熵正则化奖励函数促进探索和利用现有知识之间达到的最佳折衷方案,提出使用行为分布的微分熵来规范化奖励函数的熵正则化,并通过高斯分布表征推导出最佳反馈控制分布来平衡利用和探索性搜索,最后通过熵正则化 LQ 问题的解法证明当探索比重衰减至零时,解法能够收敛于经典 LQ 问题的解。
Dec, 2018
我们研究了模型无关的强化学习环境下 Hamilton-Jacobi-Bellman 方程的稳定性属性,特别是对于 Lipschitz 连续最优控制问题。通过在动力学和奖励函数中引入结构假设,我们进一步研究了值函数的收敛速度。此外,我们引入了一个广义框架,用于处理包含原始问题的 Lipschitz 连续控制问题,并基于此提出了一种新的基于 HJB 的强化学习算法。通过与现有方法的比较,我们测试了所提方法的稳定性和性能,并使用众所周知的基准示例进行了验证。
Apr, 2024
论文研究了通过调节策略的输入输出梯度,可以基于可行性半定规划问题获得健壮稳定性的保证,并通过应用于两个去中心化控制任务,证明强化学习代理可以在稳定控制参数空间中具有高性能和长期稳定的学习行为。
Oct, 2018
我们提出了一个结合深度强化学习优化驱动和无模型优势,通过使用 Youla-Kucera 参数化来定义搜索域提供稳定性保证的反馈控制器设计框架。通过最近在行为系统中的进展,我们能够构建基于数据驱动的内部模型,使得 Youla-Kucera 参数化的备选实现完全基于输入 - 输出探索数据。此外,我们还给出了一个矩阵分解方法来明确表示所有稳定线性算子的集合,用于深度强化学习代理的训练。最后,我们还展示了如何将这些思想应用于调整固定结构控制器。
Oct, 2023
该研究针对未知的非线性动态系统问题,提出了一种基于再生核希尔伯特空间的顺序控制算法,并通过信息理论量来获得近乎最优的遗憾上界,实验结果表明其在多个非线性控制任务中均获得了较好的表现。
Jun, 2020
价值函数在强化学习和最优控制中是衡量代理人累积未来回报的关键指标,研究相邻状态的价值相似性以及价值函数的连续性具有重要意义。本文提供并验证了价值函数连续性的上界界限,并证明了在对底层系统有弱假设的情况下,价值函数总是 H"older 连续的,并且可以通过轻微扰动系统使非可微的价值函数变得可微。
Mar, 2024
介绍了一种基于功能正则化方法的强化学习中的高性能方案,可以相对于一个策略先验进行行为的规则化,进而获得偏差 - 方差的平衡来降低高方差的挑战,并通过自适应调整策略先验,保证稳定性和更高的学习效率
May, 2019
在机器人控制任务中,强化学习(RL)在模拟中训练的策略在部署到物理硬件上时常常出现性能下降的问题,本文研究了通过利普希茨正则化来改善近似值函数的梯度条件,从而提高训练后的鲁棒性。通过将利普希茨正则化与快速梯度符号方法相结合,我们的实验结果表明了这种方法在一些连续控制基准测试中的优势。
Apr, 2024
提出了一种基于 Lagrangian relaxation 的约束强化学习方法,通过同时优化任务奖励和某些辅助成本来确保任务成功,展示了在连续控制基准任务、优化能量的四足动物运动任务以及实际机器人臂夹取任务上,该方法的有效性。
Feb, 2019