Jun, 2022
走随机漫步:学习在没有监管的情况下发现和实现目标
Walk the Random Walk: Learning to Discover and Reach Goals Without Supervision
Lina Mezghani, Sainbayar Sukhbaatar, Piotr Bojanowski, Karteek Alahari
TL;DR提出一种新颖的方法,使用随机漫步训练到达网络以预测环境中两个状态的相似性,并使用得到的到达网络构建目标存储器,最终训练了一个有能力到达任何给定状态的目标条件代理,应用于连续控制导航和机器人控制任务。