Jan, 2024

学习 POMDP 策略的可解释且性能更好的表示

TL;DR部分可观察马尔科夫决策过程(POMDP)的策略通常需要记忆,本文介绍了一种使用 L*- 算法学习策略的自动机表示的方法,相比于策略的表格表示,生成的自动机规模更小、更易解释,同时在学习过程中,我们的启发式方法甚至可以改善策略的性能,相较于直接从 POMDP 综合出自动机以解决问题的方法,我们的方法具有更高的可扩展性。