Dec, 2022

受迭代加深搜索启发的增益调度奖励奖励

TL;DR本文介绍了一种新颖的方法,在任务导向的奖励函数中添加内在的奖励以有效促进强化学习搜索,并设计了两种奖励和启发式增益调度,可以使智能体逐渐探索未知状态,并在三个运动任务和三个简单任务中展示了两种奖励的协同作用,以及正确认识地结合它们与所提出的增益调度可以以高性能完成所有任务。