物理知情模型与混合规划用于高效的 Dyna 风格增强学习

Jul, 2024

物理知情模型与混合规划用于高效的 Dyna 风格增强学习

Physics-Informed Model and Hybrid Planning for Efficient Dyna-Style Reinforcement Learning

Zakariae El Asri, Olivier Sigaud, Nicolas Thome

TL;DR应用强化学习（RL）于现实世界的应用需解决渐进性能、样本效率和推理时间之间的平衡问题。本文利用对系统动力学的部分物理知识，演示了如何应对这种三重挑战。我们的方法包括学习一个基于物理知识的模型，以提高样本效率，并通过该模型生成虚拟轨迹，从中学习无模型策略和 Q 函数。此外，我们提出了一种混合规划策略，将学习到的策略、Q 函数和模型结合起来，以提高规划的时间效率。通过实际演示，我们证明了我们的方法在样本效率、时间效率和性能方面优于现有方法。

Abstract

Applying reinforcement learning (RL) to real-world applications requires addressing a trade-off between asymptotic performance, sample efficiency

reinforcement learning real-world applications sample efficiency inference time hybrid planning strategy

发现论文，激发创造

反馈即所需：基于近似物理模型的真实世界强化学习

本文提出了一种基于策略梯度的策略优化框架，可以通过可能高度简化的一阶模型对实际数据进行监督学习，从而设计出精确的控制策略。

Jul, 2023

轨迹中心增强学习的模型基与模型无更新相结合

本文研究如何在模型无关和模型有关的强化学习方法中结合时间变化的线性高斯策略，通过基于线性二次调节器的模型有关算法与基于路径积分策略改进的模型无关框架相结合，并与指导策略搜索相结合，训练深度神经网络等任意参数策略，以提高实时机器人应用的模型效率和数据效率。研究表明，该方法可以解决具有挑战性的操作任务，其表现与模型无关方法相比具有可比性或更好的表现，同时保持模型有关方法的样本效率。

Mar, 2017

基于物理知识约束的神经网络用于动力系统建模

利用物理学基础知识作为先验知识，通过将物理学基础知识注入到神经网络结构中，从轨迹数据中学习动力学模型，并在模型的训练过程中通过增广拉格朗日法强制实施物理学知识约束，实验证明该做法比不包括先验知识的基线方法在相同的训练数据集上能够将系统动力学预测准确率提升两个数量级。

Sep, 2021

深度强化学习联合学习构造和控制智能体

运用深度强化学习，开发能够同时优化机器人设计和控制策略的方法，在机器人行走的场景下展示出在性能和效率方面均优于基准算法的优越性。

Jan, 2018

基于深度强化学习的实时模型校准

本研究提出了一种基于强化学习的模型参数推断框架，该框架以物理模型响应跟踪为目标，利用一种约束 Lyapunov 基础的 actor-critic (CLAC) 算法，考虑了大规模和高维数据以及嘈杂的真实世界条件下的鲁棒性，实现了在两个基于物理模型的诊断测试案例中的优秀表现。

Jun, 2020

基于能量模型的模型规范化计划

本研究讨论利用学习到的动力学模型进行规划，并提出使用环境状态转换的能量估计来规范该模型以实现样本有效学习，结果表明该方法可以在几分钟的经验中实现具有竞争力表现的学习。

Oct, 2019

基于模型的视觉演示逆强化学习

本文介绍了一种基于梯度的反向强化学习框架，利用预训练的视觉动态模型从视觉人类演示中学习成本函数，并通过视觉模型预测控制来复制演示行为，以解决机器人操作中的未知动力学等问题。我们在两个基本的对象操作任务上评估了我们的框架。

Oct, 2020

PhyPlan: 机器人操纵器的物理感知技能网络通用和快速物理任务规划

PhyPlan 是一个结合物理信息的规划框架，利用物理信息神经网络（PINNs）和修改的蒙特卡洛树搜索（MCTS）使得具体化代理能够执行动态物理任务，并在求解 3D - 物理推理任务方面展现出较低的后悔、加速技能学习和提高物理推理速度、比非物理信息方法展现更高的数据效率。

Apr, 2024

在线动态适应和神经网络先验的一次性操作技能学习

本研究提出了一种基于模型的强化学习算法，将以前任务的先验知识与在线动态模型适应相结合，实现了高效学习，并且成功地应用于各种复杂机器人操纵任务。

Sep, 2015

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用 2 倍样本，比模型自由方法少用 200 倍样本。

Oct, 2022