Feb, 2022
ExPoSe: 将基于状态的探索与基于梯度的在线搜索相结合
ExPoSe: Combining State-Based Exploration with Gradient-Based Online Search
Dixant Mittal, Siddharth Aravindan, Wee Sun Lee
TL;DR本论文提出一种高效有效的在线搜索算法 —— 探索性策略梯度搜索(ExPoSe),结合明确定义的探索机制,并在在线搜索过程中直接更新搜索策略参数,利用状态之间的信息共享,评估其在各种决策制定问题中的性能表现(包括 Atari 游戏、Sokoban 和稀疏图中的 Hamilton 圈搜索),结果表明 ExPoSe 在所有领域中始终优于其他流行的在线搜索算法。