强化学习之旅：从连续控制视角出发

Jun, 2018

强化学习之旅：从连续控制视角出发

A Tour of Reinforcement Learning: The View from Continuous Control

Benjamin Recht

TL;DR综述了强化学习的优化和控制方法，重点关注连续控制应用。通过一个最简单和最研究的问题 - 线性二次调节器（LQR）的案例研究，描述了从学习理论和控制理论的融合可以提供 LQR 性能的非渐进特征，并表明这些特征趋向于匹配实验行为。同时，探讨了设计与不确定环境安全可靠交互的学习系统所面临的挑战以及强化学习和控制领域所提供的工具可能如何应对这些挑战。

Abstract

This manuscript surveys reinforcement learning from the perspective of optimization and control with a focus on continuous →

reinforcement learning optimization control linear quadratic regulator learning theory

发现论文，激发创造

强化学习算法在倒立摆问题上的比较

本文研究了在没有先验动态知识的情况下，利用强化学习算法（如时间差分、策略梯度、价值函数逼近）对基准车杆动力系统进行控制的最优控制策略，进一步提出了将强化学习和摆起控制器相结合的新方法。

Oct, 2018

从逐步优化策略梯度的角度重新审视 LQR 控制

本文探讨了离散时间线性二次调节器问题，并从后退视角政策梯度的角度重新审视它，介绍了 RHPG 用于控制应用的无模型学习框架，并提供了一种精细的样本复杂性分析方法，以学习在不知道稳定控制策略情况下的控制策略，并证明了 RHPG 在具有流线型分析的线性控制和估计中的普遍适用性。

Feb, 2023

机器人倒立摆平衡的连续控制问题的 Q 学习方法

该研究评估了一种离散动作空间强化学习方法（Q-learning）在机器人倒立摆平衡的连续控制问题中的应用。为了加快学习过程并克服直接在真实机器人系统上进行学习的技术困难，学习阶段在模拟环境中进行。通过对从真实系统获取的数据进行曲线拟合来推导系统动力学的数学模型。该研究验证了该方法的可行性，应用于一个真实世界的机器人学习平衡倒立摆。该研究还强调并证明了在模拟中准确表示物理世界对于实现强化学习算法在真实环境中更有效的重要性，即使使用离散动作空间算法来控制连续动作。

Dec, 2023

基于价值限制的无模型连续控制

提出了一种基于 Lagrangian relaxation 的约束强化学习方法，通过同时优化任务奖励和某些辅助成本来确保任务成功，展示了在连续控制基准任务、优化能量的四足动物运动任务以及实际机器人臂夹取任务上，该方法的有效性。

Feb, 2019

从自整定调节器到强化学习再回归

本文介绍了机器学习和强化学习在控制和规划自主系统行为方面的应用，同时强调在安全关键的环境下要特别注意算法的可靠性和安全性，为控制理论家们提供一个学习该领域的起点。

Jun, 2019

LQR 控制中线性控制器的威力

本研究在考虑受环境噪音干扰的线性动态系统调节问题中，计算在线和离线控制策略的策略后悔。研究者在离线控制策略的优化上进行了全面的描述，并证明了离线线性策略的代价会随着时间增长而与在线策略的代价收敛，即使在噪声被选择的情况下。

Feb, 2020

从非线性观测学习线性二次调节器

本研究引入了一种新的连续控制问题设置，称为 RichLQR，使用低维连续潜在状态和高维非线性观测来实现样本高效的学习，并建立了一种新算法 RichID，该算法无需了解编码器的具体信息，仅使用最小二乘回归预测即可实现近似最优控制。

Oct, 2020

基于专家预测的无模型线性二次控制

本文介绍了一种新的无模型算法，用于控制线性二次系统，利用 reduce 方法，将马尔科夫决策过程的控制问题转化为专家预测问题，该算法实现简单通用，拥有多项理论保证和良好的性能。

Apr, 2018

机器人控制的残余强化学习

本文研究了如何通过将传统反馈控制方法与强化学习相结合，解决包括接触力和摩擦力在内的现代制造业中的机器人控制问题，并通过培训代理来演示我们的方法，成功地执行现实世界的块装配任务。

Dec, 2018

线性二次调节器的加速优化环境

本文介绍了一种处理线性二次调节器问题的一阶加速优化框架，并对 SLQR 和 OLQR 问题给出了其收敛性分析。

Jul, 2023