Mar, 2023

执行 - 衡量策略:在活跃衡量中的部分可观测环境中强化学习

TL;DR本文研究马尔可夫决策过程中的行动 - 条件无噪声可观察 MDS(ACNO-MPDs),提出了基于 “先控制再观察” 启发式的强化学习算法,并在部分可观察环境中展示了其卓越性能。