自适应基于想象优化的元控制

ICLRMay, 2017

Metacontrol for Adaptive Imagination-Based Optimization

Jessica B. Hamrick, Andrew J. Ballard, Razvan Pascanu, Oriol Vinyals, Nicolas Heess...

TL;DR通过引入元控制器，学习在预测世界的内部模拟过程中优化序列，以构建更具见识性和更经济的解决方案，并学习如何选择要参考的专家，从而比传统的固定策略方法实现更低的总成本。

Abstract

Many machine learning systems are built to solve the hardest examples of a particular task, which often makes them large and expensive to run---especially with respect to the easier examples, which might require much less computation. For an agent with a limited computational budget, t

machine learning systems metacontroller reinforcement learning model-based optimization

发现论文，激发创造

基于元强化学习的二阶系统自适应控制

本研究采用 meta-RL 控制策略，结合模型基于信息离线培训，通过已知系统的动态规律 (parameters) 来自动适应过程的变化，实现对一、二阶系统的调节。

Sep, 2022

决策与控制中的适应性和通用化优化引擎：一种元强化学习方法

基于采样的模型预测控制已经在具有非光滑系统动力学和成本函数的最优控制问题中取得了重大的成功，我们提议通过元强化学习学习一个优化器来更新控制器，该优化器不需要专家演示，并且在未知控制任务中可以实现快速适应。

Jan, 2024

基于元强化学习的腿式机器人最优设计

本文提出了一种基于模型无关元强化学习的设计优化框架，以及其应用于四足机器人运动学和执行器参数优化的方法，结果表明我们的元策略能够控制不同设计的机器人在多种复杂路况下实现随机速度命令的跟踪，而且相比于基于模型的基准线方法，我们的方法不受预定义动作或步态模式的约束，能够提供更高的性能。

Oct, 2022

元控制：异质机器人技能的自动模型控制合成

通过 Meta-Control，我们提出了第一个 LLM（Language and Vision Model）驱动的自动控制合成方法，该方法可以创建特定任务定制的状态表示和控制策略，解决了现实世界中多样且矛盾的机器人操作需求，为建立通用的机器人基础模型提供了思路。

May, 2024

元强化学习在动态现实环境中的自适应学习

本研究旨在提出一种模型基础的强化学习元学习方法，以在明显减少样本数量的情况下实现机器人在线适应新任务，并证明该方法在模拟和实际机器人中的有效性。

Mar, 2018

元强化学习作为任务推断

本文提出一种在元强化学习中用于解决任务信息受限问题的方法，通过利用各种特权信息，分别学习策略和任务信念来解决部分可观测马尔可夫决策问题，从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。

May, 2019

神经网络中的价值最大化元学习策略

在一个可行的设定中，我们理论上研究了一种优化控制信号的学习努力框架，该框架能够以完全规范的客观目标：学习过程中的折现累积性能来高效地进行优化。

Oct, 2023

元训练智能体实现贝叶斯最优智能体

该研究通过在一些预测和赌博任务上的实验，发现元学习可以作为近似数值逼近贝叶斯最优智能体的一般技术。实验结果表明，memory-based meta-learning 可以使一些不可解的任务变得可解。

Oct, 2020

元梯度搜索控制：提高 Dyna 风格规划效率的方法

通过引入一种在线、元梯度算法，我们改善了规划过程的效率，进而提高了整体学习过程的样本效率。我们的方法避免了传统规划方法的几种病态现象，并有望在未来的研究中为大规模模型驱动的强化学习系统的设计提供有用的参考。

Jun, 2024

基于层级专家网络的元学习

该论文提出了一种信息论的元学习模型，通过优化划分学习任务，使得专业的决策者解决子问题，从而达到高效的适应新任务的效果，在图像分类、回归和强化学习三个元学习领域进行验证。

Oct, 2019