- 约束元不可知强化学习
Meta-Reinforcement Learning (Meta-RL) aims to acquire meta-knowledge for quick adaptation to diverse tasks. Our novel ap - 数据采样的记忆序列长度对元强化学习智能体的适应性的影响
研究表明,对元强化学习代理的数据抽样策略,如长记忆和短记忆序列抽样策略,对其在未知环境中的表示和适应能力有着重要影响。基于贝叶斯最优理论的算法比基于汤普森抽样的算法表现出更强的适应性和鲁棒性,突出了适当的数据抽样策略在代理程序对于未知环境表 - 技能感知的互信息优化在强化学习中的泛化
为了提高元强化学习代理的泛化能力,在不同任务中辨别上下文嵌入以执行不同的技能,该研究引入了技能感知的互信息目标,通过技能感知的噪声对比估计来优化该目标,并在实验中验证了其能够实现对未见任务的零 - shot 泛化,以及对样本数量减少的鲁棒性 - MAMBA: 一种适用于元强化学习的有效世界模型方法
基于现有先进模型和元学习方法,本文提出了一种新的基于模型的元强化学习方法,通过实验证明了我们方法在常见元强化学习基准领域上能够获得更高的回报,并且具有更好的样本利用效率(高达 15 倍),同时需要很少的超参数调整。此外,我们还在更具挑战性的 - DynaMITE-RL:改进时间元强化学习的动态模型
介绍了 DynaMITE-RL,这是一种元强化学习方法,用于在潜在状态以不同速率演化的环境中进行近似推理。通过对现有元强化学习方法进行三个关键修改:会话中的潜在信息的一致性、会话屏蔽和先验潜在条件,我们展示了这些修改的重要性,从离散的 Gr - 分层变压器是高效的元强化学习者
Hierarchical Transformers for Meta-Reinforcement Learning (HTrMRL) is an online meta-reinforcement learning approach tha - 基于上下文的学习代理是非对称的信念更新器
通过研究大型语言模型的上下文学习动态,本文揭示了学习过程中的非对称性、对超出预期结果的更强学习效果以及问题框架对学习方式的重要影响,从而对上下文学习的工作机制有所贡献。
- 应用元强化学习进行策略性物联网部署在灾害应对无人机群的覆盖
通过优化模型、轻量级元 - 强化学习解决方案以及广泛的模拟实验,在提供了快速收敛的同时,证明了介绍的方法在为战略位置提供覆盖方面优于现有的三种算法。
- 决策与控制中的适应性和通用化优化引擎:一种元强化学习方法
基于采样的模型预测控制已经在具有非光滑系统动力学和成本函数的最优控制问题中取得了重大的成功,我们提议通过元强化学习学习一个优化器来更新控制器,该优化器不需要专家演示,并且在未知控制任务中可以实现快速适应。
- XLand-MiniGrid:基于 JAX 的可扩展元强化学习环境
我们提出了 XLand-MiniGrid,这是一个基于 XLand 的多样性和深度以及 MiniGrid 的简洁和极简主义所启发的元强化学习研究工具和网格世界环境套件。
- 元元强化学习与在线 LQR 中的任务相关损失函数
我们提出了一个样本高效的元强化学习算法,通过学习任务导向方式下的系统模型,在元强化学习中利用价值信息迅速捕捉环境的决策关键部分,并借助损失函数来学习任务推断模块和系统模型,从而实现与现有元强化学习算法相比使用更少的数据来学习策略和任务推断模 - 通过概率模型为基础的元强化学习实现数据高效的任务泛化
PACOH-RL 是一种基于模型的元强化学习算法,用于有效地适应控制策略对变化的动力学。它通过元学习动力学模型的先验知识来实现对新动力学的快速适应,同时利用正则化和认知不确定性量化来引导探索和数据收集,从而在数据有限的情况下实现正向传递,适 - 离线元强化学习的背景变化削减
使用离线数据集,提出了一种名为 CSRO 的新方法来解决上下文转换问题,该方法在元训练和元测试阶段都能显著减少上下文转换,并提高了泛化能力。
- 具有个性化的元生成流网络用于任务特定的适应性
本文提出了 pGFlowMeta 算法,结合了任务特定的个性化策略与元策略,并在稀疏奖励和异质性环节上实现了性能提升,理论分析表明其算法收敛速度是次线性的,而广泛的实验表明所提出的算法在离散环境中优于现有的强化学习算法。
- 离线元强化学习与基于数据分布的在线适应
本文提出了一种基于不确定性量化和有效任务置信推断的新方法框架 IDAQ,该方法通过产生正分布情境来解决离线学习数据集和在线自适应之间的转换奖励分布漂移,实现了元 - 强化学习的任务自适应和较高的性能表现。
- 基于 Moreau 包络的一阶元强化学习
本文介绍了更多 au 包络元策略学习(MEMRL)算法,其可以通过采用基于梯度的优化和包络正则化的组合来高效更新策略参数,以适应任务分布,该算法使用更多 au 包络代理正则化器来联合学习可调整到每个任务环境的元策略。最后,我们证明了 M - 基于自监督任务表示学习的元强化学习
本文提出了 MoSS 算法,它是基于上下文自监督任务表示学习的元强化学习算法,能够在非参数任务分布、非静态任务和分布任务等方面实现先进的数据效率和适应能力。
- 基于探索性任务聚类的元强化学习
利用聚类方法探索任务结构,缩小任务特定信息的搜索空间,提高元强化学习的采样效率和策略适应能力。
- 开放式任务空间中的人类时间尺度适应
本文介绍了一种训练 RL 代理器的方法,通过使用 meta-reinforcement 学习、基于注意力的内存结构和有效的自动课程表,该代理器可以快速适应开放式的 3D 问题,并具有自适应性。
- ICML基于不确定性的元强化学习用于坚韧的雷达跟踪
本文介绍了一种基于不确定性的元强化学习方法,结合区分经过训练的数据和测试数据的数据分布的机制,提高了模型的鲁棒性。在雷达追踪数据集上的测试表明,该方法在检测 OOD 数据时具有鲁棒性,并在追踪性能方面优于相关 Meta-RL 方法的峰值性能