Feb, 2016

价值迭代网络

TL;DR文章介绍了价值迭代网络(VIN),它是一个内嵌有 “规划模块” 的全可微神经网络,可以学习规划和预测基于规划的推理,如强化学习策略,其中的关键是一种新颖的可微近似值迭代算法,可表示为卷积神经网络,并使用标准反向传播进行端到端训练。我们在离散和连续路径规划域以及基于自然语言的搜索任务上评估 VIN 策略,并表明通过学习显式规划计算,VIN 策略可以更好地推广到新的、未见过的域。