BriefGPT.xyz
Ask
alpha
关键词
reachability network
搜索结果 - 1
走随机漫步:学习在没有监管的情况下发现和实现目标
提出一种新颖的方法,使用随机漫步训练到达网络以预测环境中两个状态的相似性,并使用得到的到达网络构建目标存储器,最终训练了一个有能力到达任何给定状态的目标条件代理,应用于连续控制导航和机器人控制任务。
PDF
2 years ago
Prev
Next