Feb, 2022

ExPoSe: 将基于状态的探索与基于梯度的在线搜索相结合

TL;DR本论文提出一种高效有效的在线搜索算法 —— 探索性策略梯度搜索(ExPoSe),结合明确定义的探索机制,并在在线搜索过程中直接更新搜索策略参数,利用状态之间的信息共享,评估其在各种决策制定问题中的性能表现(包括 Atari 游戏、Sokoban 和稀疏图中的 Hamilton 圈搜索),结果表明 ExPoSe 在所有领域中始终优于其他流行的在线搜索算法。