Jul, 2023

基于磁场的奖励设计器用于目标导向式强化学习

TL;DR本文提出了一种基于磁场的奖励制形式,结合了非线性和非各向同性分布,将传统奖励制应用于目标驱动的强化学习任务,得到更好的样本效率和学习性能。根据磁铁所产生的磁场强度建立奖励函数,并通过学习二次潜在函数以实现最优策略不变性。实验结果表明,相对于现有奖励制方法,该方法在模拟和现实世界中的机器人操纵任务中表现出更好的性能。