Jan, 2024

潜在状态空间中的可微树搜索

TL;DR在决策问题中,由于训练数据有限,使用深度神经网络逼近的策略函数常常表现出亚优性。作者引入了一种名为 Differentiable Tree Search (DTS) 的新颖神经网络架构,通过嵌入最佳优先在线搜索算法的算法结构,显著增强了归纳偏置,从而解决了模型精度不准确导致的性能问题。DTS 采用一个学习得到的世界模型在潜在状态空间中进行完全可微的在线搜索,并通过优化搜索算法和世界模型来学习到鲁棒的世界模型,减轻模型不准确性的影响。通过在有限训练数据情境下的 Procgen 游戏和网格导航任务中离线强化学习实验,证明 DTS 优于常见的无模型和有模型的基准算法。