关键词grid-world environments
搜索结果 - 2
- APART: 采用升序奖励和丢弃法的多样化技能发现
在无奖励环境中研究多样化技能发现,使用内在奖励和一个通过轨迹预测技能的判别器进行技能的相互训练,通过使用所有对组合的判别器、新颖的内在奖励函数和辍学正则化技术的方式,取代了标准的一对多(softmax)判别器,所提出的组合方法命名为 APA - 具有未知时间约束的安全强化学习策略联合学习
提出了一种结合逻辑约束强化学习算法和进化算法的框架,用于在不确定或未明确定义安全约束的环境中并发地学习安全约束和最优 RL 策略,并且该框架以理论保证为支撑,成功地在 grid-world 环境中识别出可接受的安全约束和 RL 策略,以及证