开放式世界中的学习课程
本文介绍了一种基于无监督环境设计的强化学习范例,叫做双重课程设计,其中使用了具有优先级的等级重放采样和对抗性策略改进方式,并在零样本迁移任务中得到了比以往更好的效果。
Oct, 2021
本文提出一种名为 “PAIRED” 的技术,可自动设计一系列结构化的智能环境用于训练机器学习模型,实验证明 PAIRED 相较于传统方法在零样本迁移学习及新颖环境下的测试表现更优。
Dec, 2020
利用强化学习的自适应课程和基于新颖距离测量的方法训练代理来适应不同的环境设计,与其他无监督环境设计方法相比,证明了本方法在文献中使用的三个不同基准问题的多样性和有效性。
Jan, 2023
本文提出了 Multi-Agent Environment Design Strategist for Open-Ended Learning (MAESTRO) 算法,该算法在多智能体环境中使用 Unsupervised Environment Design (UED) 生成敌对性的联合任务集,MAESTRO 在竞争性的两人游戏中,跨离散和连续控制环境优于其他基线方法,并在 Nash 均衡点上获得了最小化后悔的保证。
Mar, 2023
SAMLR 是一种适应性课程学习方法,可以在避免课程诱导的协变量漂移的情况下优化环境序列,保证在真实环境下最大化效用函数,实现强化学习中的最小后悔策略。
Jul, 2022
在建筑控制领域,本研究提出了一种新颖的 UED 算法 ActivePLR,通过使用具有不确定性感知的神经网络结构,在 RL 代理的能力极限处生成新的训练环境,并能够优先考虑在基准环境中的性能,表明 ActivePLR 能够在最小化能源消耗的同时最大化居住者舒适度方面优于最先进的 UED 算法。
Dec, 2023
通过分析元训练分布的特征对学习策略的泛化性能的影响,并结合无监督环境设计的思想,提出一种通过环境设计获得的通用强化学习优化器的新方法(GROOVE),该方法在一系列实验中展现了优于现有算法的泛化能力,并将算法遗憾(AR)作为环境设计中的关键组成部分加以评估。我们认为这一方法是朝着实现真正通用能解决各种现实环境的强化学习算法的一步。
Oct, 2023
介绍了 CLUTR:一种新型的无监督课程学习算法,通过将任务表示和课程学习分解成两个阶段的优化,成功地克服了任务分布不稳定性的问题,提高了稳定性,并在 CarRacing 和 Navigation 等环境中实现了具有挑战性的零 - shot 推广。
Oct, 2022