路径积分导向的策略搜索

Oct, 2016

Path Integral Guided Policy Search

Yevgen Chebotar, Mrinal Kalakrishnan, Ali Yahya, Adrian Li, Stefan Schaal...

TL;DR本文提出了一种通过策略搜索学习复杂的反馈控制策略的方法，该策略可将高维度感知输入映射到电机扭矩以执行具有不连续性接触动力学的操纵任务，该方法在使用先前的技术基础上进行了改进，使用了基于 PI2 的无模型本地优化器和使用 on-policy 抽样来训练针对一系列任务实例的复合全局策略，从而实现了直接从视觉输入执行扭矩控制的深度神经网络策略。

Abstract

We present a policy search method for learning complex feedback control policies that map from high-dimensional sensory inputs to motor torques, for →

policy search feedback control manipulation tasks discontinuous contact dynamics neural network policies

发现论文，激发创造

引导策略搜索作为近似镜像下降

该论文提出了一种新的指导策略搜索算法，将其解释为镜像下降的近似变体，并提供了改善收敛性的保证。实验结果表明，该算法在机器人导航和操作任务中的表现优于之前的指导策略搜索方法，并且具有更简单的公式和更少的超参数。

Jul, 2016

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

路径积分控制下参数不确定性的基于模型的泛化

本研究在复杂环境中研究了机器人交互问题，通过扩展路径积分控制的自由能公式中的样本空间，提出了一种嵌入不确定性的路径积分控制方法，为基于模型的机器人规划提供了鲁棒性，实验证明了其能够在不损失性能的情况下实时运行。

Jun, 2020

如此可能而不可能：反事实指导的策略搜索

利用结构因果模型对离线策略学习算法进行对实验数据的反事实评估，并通过模型预测提高模型预测的偏差。

Nov, 2018

基于概率模型的策略搜索学习鲁棒控制器

通过世界模型估计真实环境以逼近最优策略的基于模型的强化学习方法，通过在高斯过程动态模型中强制施加似然噪声的下限来正则化策略更新，从而得到更健壮的控制器。

Oct, 2021

复杂未知杂乱环境下的 GP 引导 MPPI 高效导航

GP-MPPI 是基于在线学习的控制策略，将 MPPI 与基于稀疏高斯过程（SGP）的局部感知模型相结合，通过构建方差表面来引导机器人在未知、杂乱环境中进行自主导航，确保机器人安全到达目标并避开障碍物。

Jul, 2023

通过分段仿射逼近实现灵巧操作的本地轨迹稳定化

我们提出了一个基于模型的方法来设计巧妙的机器人操作反馈策略，利用轨迹优化找到可行的轨迹，并使用多面体构建线性化轨迹的漏斗以及在线执行时解决线性问题以跟踪系统轨迹。

Sep, 2019

通用策略网络的快速基于模型的策略搜索

通过在仿真环境中使用基于高斯过程的先验知识，结合基于贝叶斯优化的策略搜索方法，提高在连续和离散控制环境中智能体行为的适应性，实验表明相比其他竞争基准，该方法的效果更好。

Feb, 2022

PLATO: 使用自适应轨迹优化的策略学习

PLATO 算法通过模型预测控制生成监督信号训练控制策略，以逐步匹配学到的策略，并保证其安全性，同时维持模型预测控制的成本作为约束，使最终学到的策略在长时间任务中表现良好。实验结果表明，PLATO 算法相较于先前方法，学习速度更快，在训练过程中遇到灾难性失败（坠机）的次数大幅减少，更可能收敛到较好的策略。

Mar, 2016

反馈即所需：基于近似物理模型的真实世界强化学习

本文提出了一种基于策略梯度的策略优化框架，可以通过可能高度简化的一阶模型对实际数据进行监督学习，从而设计出精确的控制策略。

Jul, 2023