数据采样的记忆序列长度对元强化学习智能体的适应性的影响

Jun, 2024

数据采样的记忆序列长度对元强化学习智能体的适应性的影响

Memory Sequence Length of Data Sampling Impacts the Adaptation of Meta-Reinforcement Learning Agents

Menglong Zhang, Fuyuan Qian, Quanying Liu

TL;DR研究表明，对元强化学习代理的数据抽样策略，如长记忆和短记忆序列抽样策略，对其在未知环境中的表示和适应能力有着重要影响。基于贝叶斯最优理论的算法比基于汤普森抽样的算法表现出更强的适应性和鲁棒性，突出了适当的数据抽样策略在代理程序对于未知环境表示中的重要性，尤其是在稀疏奖励的情况下。

Abstract

Fast adaptation to new tasks is extremely important for embodied agents in the real world. meta-reinforcement learning (meta-RL) has emerged as an effective method to enable fast adaptation in unknown environments. Compared to on-policy meta-RL algorithms, off-policy algorithms rely he

meta-reinforcement learning data sampling methods exploration and adaptability thompson sampling bayes-optimality theory

发现论文，激发创造

序列策略的元学习

在这篇论文中，我们回顾了基于记忆的元学习作为构建在目标类中适应任何任务的节约样本策略的工具，并通过基本算法模板提供构建近乎最优预测器和强化学习器的概念基础。此外，我们将记忆性元学习重新放入贝叶斯框架内，展示元学习策略接近最优，因为它们分摊了贝叶斯滤波之后的数据，其中适应在内存动态中实现为足够统计的状态机。基本上，基于记忆的元学习将概率序列推断的困难问题转化为回归问题。

May, 2019

基于偏好的快速适应元强化学习

本研究基于元强化学习框架，探究了在人机交互中，通过基于偏好的反馈，而非数值奖励，在少数试验中快速调整策略以适应新任务的机制，并通过信息论技术设计问题序列来最大化人类专家的信息获取效率，实验结果表明其显著优于传统算法。

Nov, 2022

高回放率赋予样本高效的多智能体强化学习

增加重播比例（或更新至数据比例）可以显著提高多智能体强化学习算法的样本效率。

Apr, 2024

具有短期记忆的可证明强化学习

本文研究如何学习部分可观察的马尔科夫决策过程。通过构造一种特殊的子类 POMDP，它的隐状态可以通过历史的近期记录来解码。我们使用新颖的瞬时匹配方法，并建立了一组在表格和丰富观察设置下，学习这类问题的近优策略的样本复杂性的上下界，并证明了短期记忆对于这些环境的强化学习已经足够。

Feb, 2022

MEET: 一种用于缓冲区采样的 Monte Carlo 探索 - 利用权衡算法

本文提出了一种新的采样策略，基于 Q 值函数的不确定性估计，指导采样探索更重要的转移，从而学习到更有效的策略，实验表明，在各种环境下，该方法在收敛和峰值性能方面的表现平均超过现有策略 26%。

Oct, 2022

元训练智能体实现贝叶斯最优智能体

该研究通过在一些预测和赌博任务上的实验，发现元学习可以作为近似数值逼近贝叶斯最优智能体的一般技术。实验结果表明，memory-based meta-learning 可以使一些不可解的任务变得可解。

Oct, 2020

增强强化学习的泛化性和可塑性以提高样本效率

通过对 off-policy RL 算法强化学习算法进行实证分析，我们发现，Sharpness-Aware Minimization 和 reset 机制的联合使用可以提高网络的适应性和计算效率，具有较高的泛化性和可塑性。

Jun, 2023

元强化学习在动态现实环境中的自适应学习

本研究旨在提出一种模型基础的强化学习元学习方法，以在明显减少样本数量的情况下实现机器人在线适应新任务，并证明该方法在模拟和实际机器人中的有效性。

Mar, 2018

优先轨迹回放：一种面向数据驱动型强化学习的回放内存

本研究提出一种记忆技术 (Prioritized) Trajectory Replay (TR/PTR) 以优化 offline RL 的效率和性能。该方法将采样视角扩展到轨迹上，具有更全面的信息提取能力，并应用于现有的 offline RL 算法中。

Jun, 2023

通过多次重复采样，离线强化学习算法在连续控制中具有高样本效率

该论文提出了一种基于 SMR（样本多次重用）的强化学习方法，通过多次重复使用样本，可以在单次优化循环中更好地利用它们，从而显著提高了基本方法的样本效率。

May, 2023