- 元强化学习中的测试时后悔最小化
元强化学习,遗憾最小化,马尔可夫决策过程,测试时间遗憾,快速速率
- 元强化学习的理论分析:泛化界限与收敛保证
这项研究探索了元强化学习(Meta RL),通过对定义泛化限制和确保收敛的深入研究。通过采用一种创新的理论框架,评估了 Meta RL 算法的有效性和性能。研究分析了影响 Meta RL 适应性的因素,揭示了算法设计与任务复杂性之间的关系。 - 梦想适应:通过潜在目标想象和马尔可夫决策过程想象的元强化学习
MetaDreamer 是一种基于上下文的元强化学习算法,通过元想象和 MDP 想象来减少实际训练任务和数据的需求,在学习未知任务时通过从类似任务中转移先前学习的知识,实验结果表明 MetaDreamer 在数据效率和插值推广方面胜过现有的 - 假设网络计划探索快速元强化学习适应
Meta Reinforcement Learning 的 Hypothesis Network Planned Exploration(HyPE)方法结合了主动和计划的探索过程,通过假设网络优化了适应速度,在快速演化的环境中显示出比基线方 - 从分散的元强化学习中出现集体开放性探索
我们在开放式任务分布上通过元强化学习以及分散训练,探究了集体探索策略的产生,发现去中心化的智能体在对抗从五种不同类型任务中抽取出的多个子任务动态组成的大量任务树时,表现出了强大的泛化能力,能够解决训练过程中从未遇到的新任务,并且这种集体探索 - 上下文马尔可夫决策过程中的策略梯度方法步长学习
本文提出一种基于元强化学习的新框架 meta-MDP,用于解决强化学习中精细的特定超参数选取问题,通过动态推荐不同策略和任务的步长,实现了在异构环境下选择自适应学习率的优势。
- ICML反差式贝叶斯自适应深度强化学习
本文提出了一种基于对比学习方法的元 RL 算法 ContraBAR,可以在状态观测及基于图像观测的领域中有效地学习 Bayes 最优行为,并可以与图像增强相结合,用于领域随机化,并可以无缝地应用于在线和离线元 RL 设置。
- 基于偏好的快速适应元强化学习
本研究基于元强化学习框架,探究了在人机交互中,通过基于偏好的反馈,而非数值奖励,在少数试验中快速调整策略以适应新任务的机制,并通过信息论技术设计问题序列来最大化人类专家的信息获取效率,实验结果表明其显著优于传统算法。
- 基于元强化学习的腿式机器人最优设计
本文提出了一种基于模型无关元强化学习的设计优化框架,以及其应用于四足机器人运动学和执行器参数优化的方法,结果表明我们的元策略能够控制不同设计的机器人在多种复杂路况下实现随机速度命令的跟踪,而且相比于基于模型的基准线方法,我们的方法不受预定义 - AAAI稀疏奖励任务元强化学习的行动翻译器
通过引入 action translator 对元强化学习中的奖励稀疏性和难度失衡的问题进行优化,极大提高了学习共享策略在适配新任务时的效率和性能。
- 有限训练任务下的元强化学习 —— 一种密度估计方法
本研究探讨使用密度估计技术,直接学习任务分布并在其上训练策略以最大化回报,从而实现元强化学习的有效性问题,结果表明,与基于历史策略的学习方法相比,我们的方法具有更好的效果,特别是在任务分布存在低维流形的情况下。
- AAAI在黑盒元强化学习中引入对称性
本文研究了元强化学习中的对称性在元泛化中的作用,我们发现对称性和黑盒元强化学习系统中通常不存在的神经网络可以帮助提高算法泛化性能。通过实验验证,加入这些对称性可以使算法更好地推广到未见过的行动和观测空间、任务和环境之中。
- ICLR利用学习目标改善元强化学习中的泛化能力
该论文介绍了一种新型元强化学习算法 MetaGenRL, 可以将多个复杂智能体的经验精炼为低复杂度的神经目标函数,并可以推广到不同于元训练的新环境中发挥作用,具有大幅增加采样效率的离线二阶梯度。
- ICLRMGHRL:层次强化学习的元目标生成
本文提出了一种新的元强化学习算法,称为 Meta Goal-generation for Hierarchical RL (MGHRL),通过学习给定过去经验的高层次元策略来生成子目标,而将如何实现子目标留给独立的强化学习子任务来完成,实验 - 元强化学习中学习探索的一些考虑
本文探讨元强化学习中的探索问题,提出了 E-MAML 和 E-RL^2 两种算法,并在 ` 疯狂世界 ' 和一组迷宫环境中展示了更好的性能表现。