Jul, 2019

自监督学习距离函数用于目标条件强化学习

TL;DR本文在使用子目标分解强化学习问题时,提出学习适当距离的方法以确定目标是否已实现,并就三种不同情境提出了解决方案,同时还提出了一个目标生成机制。