May, 2023

带门控摘要模块的价值迭代网络

TL;DR本文提出了一种名为GS-VIN的价值迭代网络,该网络采用自适应迭代策略来降低迭代次数,并引入了门控汇总模块来总结整个迭代过程,研究表明在2D网格世界路径规划问题和Atari Mr. Pac-man环境中,GS-VIN在单步准确性、规划成功率和不同地图大小的整体性能方面优于基线。