Oct, 2022

CostNet: 目标导向强化学习的端到端框架

TL;DR本文引入一种新的强化学习算法,通过学习马尔可夫决策过程中两个状态之间的距离来预测,距离度量作为内在奖励被用于推动智能体的学习。实验结果表明,相比于模型无关的强化学习,该算法在多个测试环境中具有更好的样本效率。