自我对战中的多样性诱导环境设计
本文介绍了一种基于无监督环境设计的强化学习范例,叫做双重课程设计,其中使用了具有优先级的等级重放采样和对抗性策略改进方式,并在零样本迁移任务中得到了比以往更好的效果。
Oct, 2021
本文提出一种名为 “PAIRED” 的技术,可自动设计一系列结构化的智能环境用于训练机器学习模型,实验证明 PAIRED 相较于传统方法在零样本迁移学习及新颖环境下的测试表现更优。
Dec, 2020
无监督环境设计(UED)是一种培训通常能够实现良好零 - shot 转移性能的能力强大的代理的范式。我们提出了一种基于分层 MDP(马尔可夫决策过程)的新框架,通过指导学生的性能,上层 MDP 来培训下层 MDP 学生代理。我们的算法 SHED(Synthetically-enhanced Hierarchical Environment Design)显著减少了代理与环境之间资源密集型的交互,并证明了 SHED 的多种优势,以及它作为 UED 框架中的一种有效工具的效果。
Sep, 2023
利用强化学习的自适应课程和基于新颖距离测量的方法训练代理来适应不同的环境设计,与其他无监督环境设计方法相比,证明了本方法在文献中使用的三个不同基准问题的多样性和有效性。
Jan, 2023
该论文介绍了一种称为无监督环境设计(UED)的方法,通过自动生成无限的训练环境序列或课程以匹配或超过真实世界的复杂性,从而实现深度强化学习代理在鲜有环境示例中表现出显著改进的鲁棒性和泛化能力,这些自生成的环境课程为不断生成和掌握自主设计的额外挑战的开放式学习系统提供了有希望的路径。
Dec, 2023
SAMLR 是一种适应性课程学习方法,可以在避免课程诱导的协变量漂移的情况下优化环境序列,保证在真实环境下最大化效用函数,实现强化学习中的最小后悔策略。
Jul, 2022
本文介绍了一种基于差异性驱动的强化学习探索方法,结合在线和离线强化学习算法,通过向损失函数中添加距离度量,显著提高了代理的探索行为,从而防止局部最优解以及进行了学习进程的自适应缩放方法,实验表明该方法在 Atari 2600 中在多个任务中显著优于基线方法.
Feb, 2018
通过对深度强化学习的自主代理进行研究,发现优先选择基于值损失最小化的级别可以最小化代理内部表示与训练数据集之间的相互信息,提出了一种新的理论解释适应性采样策略的合理性;另外,引入了上下文环境设计(ICED)方法,通过使用训练好的变分自动编码器在一组初始级别参数上进行级别生成,减少数据偏差,并在零样本泛化性上取得显著改进。
Feb, 2024