BriefGPT.xyz
Ask
alpha
关键词
curriculum rl
搜索结果 - 2
聚变多样性:基于结果导向的课程强化学习与分歧的超出分布
提出了一种新的课程强化学习方法 D2C,该方法通过对目标条件分类器进行多样化,确保分类器对于来自分布之外的状态产生分歧,从而探索未知区域并定义一种任意目标条件内在奖励信号,从而产生适应性良好的中间目标序列,以自动探索并征服未知区域。实验结果
→
PDF
8 months ago
ICLR
通过不确定性和时间距离感知的课程目标生成的以结果为导向的强化学习
本文提出了一种针对增强学习的不确定性和时间距离感知课程目标生成方法,通过解决二分图匹配问题,为课程提供精确的指导,从而更好地解决了先前课程 RL 方法中存在的问题,并在数量和质量上显著优于这些方法。
PDF
a year ago
Prev
Next