关键词unsupervised environment design
搜索结果 - 13
- JaxUED:一个简单易用的 Jax UED 库
JaxUED 是一个开源库,提供现代无监督环境设计算法的最小依赖实现。JaxUED 利用硬件加速获得与基于 CPU 的实现相比高达 100 倍的加速。本文描述了我们的库并包含了基准结果。
- 优化最小后悔度的无监督环境设计
无监督环境设计中,使用基于后悔最小化的最小极大后悔 (BLP) 目标进行训练,通过算法 ReMiDi 实现回报最小化,克服了智能体在极大后悔对手生成的环境配置中学习停滞的问题。
- ICED:通过上下文环境设计在强化学习中实现零 - shot 转移
通过对深度强化学习的自主代理进行研究,发现优先选择基于值损失最小化的级别可以最小化代理内部表示与训练数据集之间的相互信息,提出了一种新的理论解释适应性采样策略的合理性;另外,引入了上下文环境设计(ICED)方法,通过使用训练好的变分自动编码 - 稳健建筑控制的主动强化学习
在建筑控制领域,本研究提出了一种新颖的 UED 算法 ActivePLR,通过使用具有不确定性感知的神经网络结构,在 RL 代理的能力极限处生成新的训练环境,并能够优先考虑在基准环境中的性能,表明 ActivePLR 能够在最小化能源消耗的 - 开放式世界中的学习课程
该论文介绍了一种称为无监督环境设计(UED)的方法,通过自动生成无限的训练环境序列或课程以匹配或超过真实世界的复杂性,从而实现深度强化学习代理在鲜有环境示例中表现出显著改进的鲁棒性和泛化能力,这些自生成的环境课程为不断生成和掌握自主设计的额 - JAX 中用于自学习任务的高效基线算法
无监督环境设计(UED)是一种自动课程学习的形式,用于训练强大的决策制定代理,使其能够在未知环境中进行零样本迁移。本研究介绍了用于加速硬件上的 UED 训练的 minimax 库,并利用 JAX 实现完全张量化的环境和自动课程算法,以便该训 - 基于生成轨迹建模的环境设计层次化方法
无监督环境设计(UED)是一种培训通常能够实现良好零 - shot 转移性能的能力强大的代理的范式。我们提出了一种基于分层 MDP(马尔可夫决策过程)的新框架,通过指导学生的性能,上层 MDP 来培训下层 MDP 学生代理。我们的算法 SH - 用学习对手稳定非监督环境设计
训练任务、无监督环境设计、PARED、最新方法、开放式强化学习训练。
- 无监督环境设计中有效的多样性
利用强化学习的自适应课程和基于新颖距离测量的方法训练代理来适应不同的环境设计,与其他无监督环境设计方法相比,证明了本方法在文献中使用的三个不同基准问题的多样性和有效性。
- CLUTR: 通过无监督任务表示学习进行课程学习
介绍了 CLUTR:一种新型的无监督课程学习算法,通过将任务表示和课程学习分解成两个阶段的优化,成功地克服了任务分布不稳定性的问题,提高了稳定性,并在 CarRacing 和 Navigation 等环境中实现了具有挑战性的零 - shot - 无监督环境设计中的随机不确定性建模
SAMLR 是一种适应性课程学习方法,可以在避免课程诱导的协变量漂移的情况下优化环境序列,保证在真实环境下最大化效用函数,实现强化学习中的最小后悔策略。
- 回放引导的对抗环境设计
本文介绍了一种基于无监督环境设计的强化学习范例,叫做双重课程设计,其中使用了具有优先级的等级重放采样和对抗性策略改进方式,并在零样本迁移任务中得到了比以往更好的效果。
- 非监督环境设计引发的新兴复杂性和零 - shot 迁移
本文提出一种名为 “PAIRED” 的技术,可自动设计一系列结构化的智能环境用于训练机器学习模型,实验证明 PAIRED 相较于传统方法在零样本迁移学习及新颖环境下的测试表现更优。