Jun, 2022

走随机漫步:学习在没有监管的情况下发现和实现目标

TL;DR提出一种新颖的方法,使用随机漫步训练到达网络以预测环境中两个状态的相似性,并使用得到的到达网络构建目标存储器,最终训练了一个有能力到达任何给定状态的目标条件代理,应用于连续控制导航和机器人控制任务。