Feb, 2018

M-Walk: 使用蒙特卡罗树搜索学习在图上行走

TL;DR通过开发 M-Walk 这样一种能够在存在稀疏奖励情况下有效训练的图行走代理,利用深度循环神经网络和 Monte Carlo Tree Search 算法,结合神经策略与 Q 值,用 Q-Learning 进行无模拟训练,最终在多个图行走基准测试中展现出远优于其他基于策略梯度的强化学习方法的性能,解决了知识库补全等实际应用中遇到的问题。