跟踪任务非稳态性的元强化学习

IJCAIMay, 2021

Meta-Reinforcement Learning by Tracking Task Non-stationarity

Riccardo Poiani, Andrea Tirinzoni, Marcello Restelli

TL;DR提出了一种基于元学习和显式跟踪任务演化的新算法（TRIO），该方法在训练期间通过学习变分模块和探索策略来识别潜在参数以快速适应相关任务，并在测试期间通过在线跟踪潜在参数来减少当前和未来任务的不确定性。

Abstract

Many real-world domains are subject to a structured non-stationarity which affects the agent's goals and the environmental dynamics. Meta-reinforcement learning (RL) has been shown successful for training agents that quickly adapt to related tasks. However, most of the existing meta-RL

meta-reinforcement learning non-stationarity task evolution optimization variational module

发现论文，激发创造

RL$^3$: 通过 RL 内外的 RL$^2$ 提升元强化学习

本文提出了一种 RL$^3$ 算法，该算法将 Task-specific action-values 作为 Traditional RL 学到的输入，并通过将 Traditional RL 和 Meta-RL 组合来在 Long-horizon 和 Out-of-distribution 任务中获得更高的累积回报。

Jun, 2023

元强化学习在模拟到真实领域适应中的应用

本论文提出了一种基于元学习的方法，在使用任务特定轨迹生成模型提供动作空间以便快速探索的同时，训练机器人智能体以适应各种动态条件，以解决现代强化学习方法低样本效率和不安全探索的问题。我们通过在仿真环境中进行域适应并分析适应过程中潜在空间的结构来评估该方法。然后，在 KUKA LBR 4 + 机器人上应用此策略，并在将曲棍球击向目标的任务中评估其性能。实验结果表明，与基准表现相比，这种方法具有更一致和稳定的域适应性，从而获得了更好的整体性能。

Sep, 2019

元强化学习作为任务推断

本文提出一种在元强化学习中用于解决任务信息受限问题的方法，通过利用各种特权信息，分别学习策略和任务信念来解决部分可观测马尔可夫决策问题，从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。

May, 2019

元世界：多任务和元强化学习的基准和评估

本文提出了一个开源的模拟基准测试，包含 50 个不同的机器人操作任务，以评估 7 种最先进的元强化学习和多任务学习算法在这些任务上的表现，发现这些算法在解决多任务时仍存在挑战，为未来的研究提供了实验环境。

Oct, 2019

时变系统中强化学习的揭秘

探索如何通过一个稳健的框架解决非稳态环境下的强化学习问题，其中该框架通过识别不同的环境、触发探索、将先前环境的知识保留下来以及保护系统性能来训练 RL agent，并且在解决一些系统问题时进行了验证。

Jan, 2022

基于偏好的快速适应元强化学习

本研究基于元强化学习框架，探究了在人机交互中，通过基于偏好的反馈，而非数值奖励，在少数试验中快速调整策略以适应新任务的机制，并通过信息论技术设计问题序列来最大化人类专家的信息获取效率，实验结果表明其显著优于传统算法。

Nov, 2022

通过模型识别和经验再标记实现对分布偏移鲁棒的元强化学习

在本文中，我们提出了基于模型识别和经验重新标注（MIER）的元强化学习算法，它是一种有效的算法，可以在测试时面对分布外的任务进行良好拟合，而无需使用元强化学习

Jun, 2020

基于探索性任务聚类的元强化学习

利用聚类方法探索任务结构，缩小任务特定信息的搜索空间，提高元强化学习的采样效率和策略适应能力。

Feb, 2023

深度强化学习在生命周期非稳态环境下的应用

在非稳态环境下，我们提出了一种新的离线强化学习算法，该算法使用潜在变量模型，将当前和过去的经验学习环境的表示，并在此表示下执行离线强化学习，实验结果表明这种方法显著优于不考虑环境变化的方法。

Jun, 2020

通过概率上下文变量实现高效的离线元强化学习

本文提出了一种离线元强化学习算法，通过在线概率过滤隐含的任务变量来推断如何从少量经验中解决新任务，实现了结构化和有效的探索。该方法在几个元 - 强化学习基准测试中，比先前算法在样本效率和渐近性能方面提高了 20-100 倍。

Mar, 2019