基于元强化学习的二阶系统自适应控制

Sep, 2022

基于元强化学习的二阶系统自适应控制

Meta-Reinforcement Learning for Adaptive Control of Second Order Systems

Daniel G. McClement, Nathan P. Lawrence, Michael G. Forbes, Philip D. Loewen, Johan U. Backström...

TL;DR本研究采用 meta-RL 控制策略，结合模型基于信息离线培训，通过已知系统的动态规律 (parameters) 来自动适应过程的变化，实现对一、二阶系统的调节。

Abstract

meta-learning is a branch of machine learning which aims to synthesize data from a distribution of related tasks to efficiently solve new ones. In process control, many systems have similar and well-understood dynamics, which suggests it is feasible to create a generalizable controller

meta-learning reinforcement learning process control model-based information proportional-integral-derivative controllers

发现论文，激发创造

无监督元学习强化学习

本研究提出了一系列用于强化学习的无监督元学习算法，以解决通过任务提案进行任务训练而非手动任务设计所带来的算法设计负担，并得出这些程序具有优异性能的结论。

Jun, 2018

元强化学习作为任务推断

本文提出一种在元强化学习中用于解决任务信息受限问题的方法，通过利用各种特权信息，分别学习策略和任务信念来解决部分可观测马尔可夫决策问题，从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。

May, 2019

元强化学习在动态现实环境中的自适应学习

本研究旨在提出一种模型基础的强化学习元学习方法，以在明显减少样本数量的情况下实现机器人在线适应新任务，并证明该方法在模拟和实际机器人中的有效性。

Mar, 2018

带潜在变量高斯过程的元强化学习

利用层级潜变量模型，自动推断任务之间的关系并应用于模型强化学习中，从而实现在小规模数据集上的元学习，有效提高数据利用率，解决新任务的平均交互时间缩短高达 60%。

Mar, 2018

强化学习学习

本文提出了一种名为深度元强化学习的方法，该方法使用递归网络，在一个强化学习算法上进行训练，但其递归动态实现第二个、完全分离的强化学习过程，通过一系列七个验验证明了这种方法的潜在优势并提出了其可能引发的神经科学方面的重要影响。

Nov, 2016

自适应基于想象优化的元控制

通过引入元控制器，学习在预测世界的内部模拟过程中优化序列，以构建更具见识性和更经济的解决方案，并学习如何选择要参考的专家，从而比传统的固定策略方法实现更低的总成本。

May, 2017

引导式元策略搜索

本文提出了一种基于联邦学习的强化学习策略的元学习算法，在不需要大量策略经验数据的情况下，能够加速学习新任务，该算法在控制任务的元强化学习中表现出显著的效果提升和可扩展性，并且可应用于视觉观测领域。

Apr, 2019

离线元强化学习与在线自我监督

本文提出了一种混合离线元强化学习算法，能够使用有奖离线数据来元训练自适应策略，并通过收集额外的非监督在线数据来补偿分布偏移，这种算法比以前的元 RL 方法在模拟机器人运动和操纵任务中表现更为优异。

Jul, 2021

工业插入离线元强化学习

本文介绍了一种快速适应新任务的元学习框架，通过先前任务学习自适应，专注于工业插入任务，并结合上下文元学习和在线微调处理了传统元强化学习方法所需的在线元训练，成功率达 100%。

Oct, 2021

基于元强化学习的腿式机器人最优设计

本文提出了一种基于模型无关元强化学习的设计优化框架，以及其应用于四足机器人运动学和执行器参数优化的方法，结果表明我们的元策略能够控制不同设计的机器人在多种复杂路况下实现随机速度命令的跟踪，而且相比于基于模型的基准线方法，我们的方法不受预定义动作或步态模式的约束，能够提供更高的性能。

Oct, 2022