- 约束元不可知强化学习
Meta-Reinforcement Learning (Meta-RL) aims to acquire meta-knowledge for quick adaptation to diverse tasks. Our novel ap - SplAgger: 元强化学习的拆分聚合
通过研究表明,即使在没有任务推断目标的情况下,任务推断序列模型仍然是有益的,并提出了 SplAgger 方法,通过使用置换变体和不变体组件,以在连续控制和记忆环境中胜过所有基线。
- 高效的符号策略学习与可微分符号表达
通过提出一种名为 Efficient Symbolic Policy Learning(ESPL)的高效梯度学习方法,在深度强化学习中实现从头开始学习符号策略,并扩展至元强化学习,生成出性能更高、效率更高且具有潜力解释的符号策略。
- 循环超网络在元强化学习中的强大能力
深度强化学习中的元强化学习通过学习可以进行少样本训练的方式来解决样本低效问题。本文通过实证调查发现,当与超网络结合时,远比现有专门方法更简单的循环网络可以实现最强的性能。
- RL$^3$: 通过 RL 内外的 RL$^2$ 提升元强化学习
本文提出了一种 RL$^3$ 算法,该算法将 Task-specific action-values 作为 Traditional RL 学到的输入,并通过将 Traditional RL 和 Meta-RL 组合来在 Long-horiz - 进化强化学习:综述
这篇文章综述了将进化计算方法与强化学习相结合的最新研究进展和方法,涉及强化学习中的关键研究领域及未来方向,为研究者和实践者提供参考和资源。
- 元世界条件神经过程
提出了 Meta-World 条件神经过程(MW-CNP),是一种使用条件神经过程的条件世界模型生成器,使得代理可以从其自身 “幻想” 中采样,以尽可能减少测试时与目标环境的交互,并通过生成的 “幻觉” 让代理与任务适应,以显著减少与基线相 - 离线元强化学习的上下文变换器
本文探讨了如何通过 prompt tuning 和 Contextual Meta Transformer 算法来提高基于序列建模的离线强化学习算法的性能,并在三种不同的离线 RL 设置下进行了广泛的实验,验证了方法的高效性和普适性。
- BIMRL:基于脑启发式的元强化学习
本文介绍了一种名为 BIMRL 的新型多层体系结构及新型脑启发记忆模块,旨在帮助智能体在几个周期内快速适应新任务。我们还利用这种记忆模块设计了一种新的内在奖励,以指导代理的探索。我们证明了我们提出的方法的有效性,具有强大的性能,能够胜过一些 - 元强化学习中的超网络
本研究基于机器人实验,研究了在多个相关任务中训练深度强化学习模型的样本效率问题,采用一种称为超网络的方法来解决模型泛化问题,并且提出了一种新的超网络初始化策略,该策略在多个模拟机器人基准测试上的表现超过了现有方法。
- 深度多智能体强化学习中的斯塔克伯格均衡:神谕和追随者
本研究提出了一种将 Stackelberg 平衡搜索实现为多智能体强化学习问题的通用框架,并借助多任务和元强化学习技术实现了一种使用情境策略的方法,在标准和新颖的基准领域上进行了实验,并显示出较以前的方法大大提高的样本效率。同时,我们探讨了 - 元学习参数化技能
本研究提出了一种新的参数化技能学习算法,此算法可以学习可转移的参数化技能并将其综合到新的行动空间中,从而支持长视深远任务的高效学习。经实证表明,这种方法可以使代理人解决一组困难的长视深远任务。
- 只需要有监督学习:从模仿学习到反转强化学习元学习
本文介绍 Upside Down Reinforcement Learning (UDRL) 算法,它使用监督学习实现了强化学习的目标,并可以适用于多种强化学习环境,具有非常广泛的适用性。
- ICML用超网络重新组合强化学习构建块
本文提出使用超网络结构来改善强化学习和 Meta-RL 算法中梯度估计和学习步骤方差的问题,以提高学习效率和最终性能。实验表明,该方法可在不同的任务和算法中得到一致的改进。
- ICLRVariBAD:基于元学习的 Bayes - 自适应深度强化学习的非常好方法
本研究提出了一种元学习方法 —— 变分 Bayes 适应深度强化学习 (variBAD),用于在未知环境中进行结构化在线探索,通过直接考虑任务不确定性进行动作选择,在 MuJoCo 领域的实验证明,相较于现有方法,variBAD 能够获得更 - 结构化探索策略的元强化学习
本研究探讨如何从先前的经验中学习探索策略,并介绍了一种新的基于梯度的快速自适应算法(MAESN)来学习从先前任务中发现的探索策略。该方法相比先前的元 RL、RL 无学习的探索策略和任务不可知的探索方法更加有效,并在模拟任务中进行了评估。