基于自监督任务表示学习的元强化学习

Apr, 2023

基于自监督任务表示学习的元强化学习

Meta-Reinforcement Learning Based on Self-Supervised Task Representation Learning

Mingyang Wang, Zhenshan Bing, Xiangtong Yao, Shuai Wang, Hang Su...

TL;DR本文提出了 MoSS 算法，它是基于上下文自监督任务表示学习的元强化学习算法，能够在非参数任务分布、非静态任务和分布任务等方面实现先进的数据效率和适应能力。

Abstract

meta-reinforcement learning enables artificial agents to learn from related training tasks and adapt to new tasks efficiently with minimal interaction data. However, most existing research is still limited to narrow task distributions that are parametric and stationary, and does not co

meta-reinforcement learning non-parametric task distributions online adaptation strategy robust task representation sample efficiency

发现论文，激发创造

无监督元学习强化学习

本研究提出了一系列用于强化学习的无监督元学习算法，以解决通过任务提案进行任务训练而非手动任务设计所带来的算法设计负担，并得出这些程序具有优异性能的结论。

Jun, 2018

审视我们忽略的事物：在基于上下文的离线元强化学习中驾驭任务表征的转移

通过最大化互信息来提高任务表示能够实现性能的单调改善，其中，RETRO 算法重新调整任务表示偏移，从而在离线元强化学习中取得了 SOTA 的渐近性能、训练稳定性和训练时间消耗的实证结果。

May, 2024

元强化学习作为任务推断

本文提出一种在元强化学习中用于解决任务信息受限问题的方法，通过利用各种特权信息，分别学习策略和任务信念来解决部分可观测马尔可夫决策问题，从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。

May, 2019

自主推断子任务依赖关系的元强化学习

本文提出了一种新颖的少样本强化学习问题，其通过任务的子任务图描述一组子任务及其依赖关系，我们开发了一种元学习器，即消息传递子任务图推理器（MSGI），该学习器通过与环境交互推断任务的潜在参数，并采用上限置信界中得到启发的内在奖励以促进有效探索，实验结果表明该方法能够准确推断潜在任务参数，并比现有的元强化学习和分层强化学习方法更有效地适应。

Jan, 2020

离线元强化学习与在线自我监督

本文提出了一种混合离线元强化学习算法，能够使用有奖离线数据来元训练自适应策略，并通过收集额外的非监督在线数据来补偿分布偏移，这种算法比以前的元 RL 方法在模拟机器人运动和操纵任务中表现更为优异。

Jul, 2021

通过对比学习实现离线元强化学习的稳健任务表示

在离线元强化学习的背景下，提出了一种对抗学习框架，用于学习对行为策略不敏感的任务表示，并通过对各种离线元强化学习基准测试的实验，展示了该方法相比之前的方法在行为策略的泛化能力方面的优越性。

Jun, 2022

元世界：多任务和元强化学习的基准和评估

本文提出了一个开源的模拟基准测试，包含 50 个不同的机器人操作任务，以评估 7 种最先进的元强化学习和多任务学习算法在这些任务上的表现，发现这些算法在解决多任务时仍存在挑战，为未来的研究提供了实验环境。

Oct, 2019

大规模非静态任务分布下的低遗忘元学习

本文提出了一种半监督元学习方法（SETS）来解决不断演化的任务分布和大量的未标记数据存在时的元学习问题，并通过引入相互信息正则化来稳健地利用未标记外部分布数据以及采用最优传输正则化来在特征空间记住已学习的知识。在大规模非稳态半监督任务分布数据集上的测试中，实验证明了本文方法相对于相关强基线具有更好的鲁棒性。

Sep, 2022

人类和机器中结构化任务分布的元学习

通过构建基于组合语法的结构化任务分布和相同统计复杂度但没有明确的基于规则的结构的 “空任务分布”，比较人类表现与标准元学习代理在两个任务分布中的表现，发现虽然统计复杂度相当，但人类在结构化任务分布中表现更好，而代理在空任务分布中表现更好，这表明控制任务分布的谨慎构建是理解元学习者获得的策略及其与人类的差异之一种有价值的方法。

Oct, 2020

基于探索性任务聚类的元强化学习

利用聚类方法探索任务结构，缩小任务特定信息的搜索空间，提高元强化学习的采样效率和策略适应能力。

Feb, 2023