反馈即所需：基于近似物理模型的真实世界强化学习

Jul, 2023

反馈即所需：基于近似物理模型的真实世界强化学习

Feedback is All You Need: Real-World Reinforcement Learning with Approximate Physics-Based Models

Tyler Westenbroek, Jacob Levy, David Fridovich-Keil

TL;DR本文提出了一种基于策略梯度的策略优化框架，可以通过可能高度简化的一阶模型对实际数据进行监督学习，从而设计出精确的控制策略。

Abstract

We focus on developing efficient and reliable policy optimization strategies for robot learning with real-world data. In recent years,

policy optimization robot learning policy gradient real-world data control policies

发现论文，激发创造

非抓取性操作的强化学习：从仿真到物理系统的转移

本研究使用一种修改自然策略梯度算法的模型，通过模拟学习并训练，成功将自主控制策略从虚拟系统转移到由三个机器人组成的物理系统中，并证明使用多个模型训练可以使学习到的策略更加稳健，从而弥补了系统识别的困难。

Mar, 2018

物理知情模型与混合规划用于高效的 Dyna 风格增强学习

应用强化学习（RL）于现实世界的应用需解决渐进性能、样本效率和推理时间之间的平衡问题。本文利用对系统动力学的部分物理知识，演示了如何应对这种三重挑战。我们的方法包括学习一个基于物理知识的模型，以提高样本效率，并通过该模型生成虚拟轨迹，从中学习无模型策略和 Q 函数。此外，我们提出了一种混合规划策略，将学习到的策略、Q 函数和模型结合起来，以提高规划的时间效率。通过实际演示，我们证明了我们的方法在样本效率、时间效率和性能方面优于现有方法。

Jul, 2024

基于概率模型的策略搜索学习鲁棒控制器

通过世界模型估计真实环境以逼近最优策略的基于模型的强化学习方法，通过在高斯过程动态模型中强制施加似然噪声的下限来正则化策略更新，从而得到更健壮的控制器。

Oct, 2021

想象价值梯度：基于模型的策略优化和可转移的潜在动态模型

本文研究如何通过模型驱动的增强学习方法促进任务转移，提出了基于动作条件的预测模型学习算法，用于机器人操作任务中的策略优化并在转移学习场景中取得了显著的学习速度提升。

Oct, 2019

通过分析策略梯度训练高效控制器

提出一种基于解析策略梯度法（APG）的控制方法来解决机器人系统控制问题，与 MPC 控制方法相比，该方法能够实现类似的轨迹跟踪性能，但计算时间要少一个数量级，在控制设计和优化领域有着极高的实际应用价值。

Sep, 2022

通过物理引擎快速模型识别，以进行数据高效策略搜索

本文提出的方法利用物理引擎技术和基于贝叶斯优化的模型参数优化算法，通过模拟实验和样本学习的方式，有效地辨识了机器人的力学参数，提高了现有策略搜索算法的数据效率。

Oct, 2017

机器人和控制中的高斯过程数据有效学习

本文介绍了一种模型基于策略搜索的自动学习方法，使用概率非参数高斯过渡模型从数据中提取更多信息，以提高学习速度并降低模型误差的影响，已在真实机器人和控制任务中得到了应用。

Feb, 2015

机器人控制的残余强化学习

本文研究了如何通过将传统反馈控制方法与强化学习相结合，解决包括接触力和摩擦力在内的现代制造业中的机器人控制问题，并通过培训代理来演示我们的方法，成功地执行现实世界的块装配任务。

Dec, 2018

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017

强化学习中的在线策略模型误差

本文提出了一种结合模型和真实数据的方法来弥补模型误差和偏差所带来的不足，通过将真实数据作为时间相关的学习模型的修正项以维持数据生成能力并减少预测误差，从而改进了现有的基于模型的方法。在 MuJoCo 和 PyBullet 基准测试上的实验结果表明该方法可以显著提高基于模型的方法的表现。

Oct, 2021