SplAgger: 元强化学习的拆分聚合

Mar, 2024

SplAgger: Split Aggregation for Meta-Reinforcement Learning

Jacob Beck, Matthew Jackson, Risto Vuorio, Zheng Xiong, Shimon Whiteson

TL;DR通过研究表明，即使在没有任务推断目标的情况下，任务推断序列模型仍然是有益的，并提出了 SplAgger 方法，通过使用置换变体和不变体组件，以在连续控制和记忆环境中胜过所有基线。

Abstract

A core ambition of reinforcement learning (RL) is the creation of agents capable of rapid learning in novel tasks. meta-rl aims to achieve this by directly learning such agents. One category of →

reinforcement learning meta-rl task inference sequence models permutation invariant aggregation

发现论文，激发创造

元强化学习作为任务推断

本文提出一种在元强化学习中用于解决任务信息受限问题的方法，通过利用各种特权信息，分别学习策略和任务信念来解决部分可观测马尔可夫决策问题，从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。

May, 2019

自主推断子任务依赖关系的元强化学习

本文提出了一种新颖的少样本强化学习问题，其通过任务的子任务图描述一组子任务及其依赖关系，我们开发了一种元学习器，即消息传递子任务图推理器（MSGI），该学习器通过与环境交互推断任务的潜在参数，并采用上限置信界中得到启发的内在奖励以促进有效探索，实验结果表明该方法能够准确推断潜在任务参数，并比现有的元强化学习和分层强化学习方法更有效地适应。

Jan, 2020

任务嵌入与共享策略的元强化学习

本研究提出了一种 meta-RL 方法，通过捕捉不同任务之间的共享信息和快速抽象任务特定信息的能力，使用任务编码器生成任务嵌入并在所有任务之间共享策略，实现在训练和新任务上的更好学习能力和更高回报率。

May, 2019

深度聚合：序列预测的可微分模仿学习

使用 Imitation Learning 的 Policy Gradient Extension 能够充分利用优秀的预测模型，在深度神经网络处理的机器人控制及序列预测任务上比弱化的 Reinforcement Learning 更高效、损失较小，其 IL 的理论研究展现 AggreVaTeD 比其他 RL 算法更少的样本能达到更优质的性能

Mar, 2017

分层决策 Transformer

本文提出了一种层次算法用于从演示中学习序列模型，可解决强化学习中的任务策略估计问题，通过选择子目标来指导低层控制器完成任务，改善了以往方法的性能，并证明了其在多项任务中优于基线方法，表明层次模型适用于从演示中学习序列模型。

Sep, 2022

安全关键控制的自适应聚合

本文提出了一个自适应聚合框架，用于处理强化学习中的安全性问题。通过聚合多个源任务和目标任务来学习传输安全知识，并通过利用保障来分离提高任务绩效和减少约束违规的目标。实验结果表明，与几种基线相比，我们的算法可以实现更少的安全违规，同时显示更好的数据效率。

Feb, 2023

针对少样本任务概括的快速推理和组合任务结构转移

本研究提出基于多任务子任务图推断的少样本强化学习方法，通过推断训练任务的高层子任务图结构，提高在测试任务中的任务推断和适应能力，实验结果表明其能够学习并利用任务的潜在共同结构，比其他现有算法如元强化学习、分层强化学习和启发式智能体等更快地适应未见过的任务。

May, 2022

学习无关变量以实现策略泛化

本文研究机器学习领域中的强化学习问题，主要关注于学习能够适应不同环境的策略，探讨数据增强、元学习和对抗训练三种可能的策略泛化方法，发现数据增强方法是有效的，并研究了元学习和对抗学习作为替代的任务不可知方法的潜力。

Sep, 2018

Few-shot 优化的广义强化元学习

提出了一种基于强化学习和元学习的框架来解决 few-shot learning 问题，通过稳定的损失函数来学习最佳的优化算法，从而实现了对参数的更新。实验结果表明该方法在准确率和 NDCG 指标上均超过了现有的替代方法，并且可扩展到网络结构搜索。

May, 2020

无监督元学习强化学习

本研究提出了一系列用于强化学习的无监督元学习算法，以解决通过任务提案进行任务训练而非手动任务设计所带来的算法设计负担，并得出这些程序具有优异性能的结论。

Jun, 2018