ICLRApr, 2024

基于树搜索的随机执行延迟下的策略优化

TL;DR该研究介绍了随机延迟执行马尔可夫决策过程的新形式,通过在马尔可夫决策类中进行策略搜索,提高了性能,并使用 DEZ 算法优化了马尔可夫决策过程的采样效率。